本帖最后由 w6vDqw 于 2022-12-5 19:23 编辑
0.数据来源
本数据库由我自己写的python脚本爬取,实现方法非常简单。
该脚本经过了某BIT教授指点,运行稳定,爬起来都不带停的那种。指爬了一天一夜,经历过数次403。
写这个脚本的初衷是为了找一个帖子,我记得今年什么时候好像是哪个服主用了BBSToper导致玩家巨量灌水,然后致歉。
这件事情我印象很深,所以当爱国说根本没有服主对玩家灌水行为致歉的时候,我说我记得有,但是我发现我居然忘记收藏了,于是这个帖子就这么找不到了。(无奈)指痛失爱国的红包
而我记得那个帖子是在茶馆还是在反馈版来着的,反馈版翻了半天没翻到,茶馆水帖太多了影响查阅,所以说只能拉下来直接正则查找咯。
本来想按pid爬取的,后来发现会因为存在阻力无法克服而无法继续爬取,且按pid顺序爬取的话,工作量太大了。所以我决定直接通过遍历的形式爬取近期所有主题帖。虽然还是没找到
不过呢,既然爬完了,正好好对这个数据库做一个数据分析。
1.

大家可以看到我这张图代表了什么,说了什么。
这是一个数据库。这个数据库里面装着tid=1300000->tid=1399999的每个帖子的内容。
这个库大约1G,够大了吧,就纯文本啊。
2.我们先打开数据库对主题帖内容进行一个排序。
由于数据库太卡了,进行一次操作都要十几秒,截点图还真的就不容易。
由于在2022-9-11你坛规则大改,这时,tid=1383808。
也就是说以下的数据是经过稀释的,但是仍然具有参考价值。

首先我们可以看到,该数据库有37023条空白记录。
我对我代码稳定性有自信,终端DEBUG数据表明我爬不到数据根本就不是超时问题,所以说我姑且可以认为这个帖子是被删了,当然了,还可能是隐藏板块的问题,包括版主沙龙和末路之地。这些我都可以不算进去,因为比例是在太低了。
那……这也太可怕了,10w条帖子,删除率高达37.0%左右。也就是说,10w条帖子里面,基本上茶馆的主题帖要占到一多半,但是呢,删除的却是绝大多数,这种情况我们可以认为服务器遇到了spam。

这还没完,我们可以看到,到达40100记录的时候这个函数返回值改变了,从HTML文件头变成了精简过的树形body文件。
经过查看发现,这些外显文件头的,都是外显过于陈旧的。
也就是说这么多帖子处于回收区。
我们姑且可以理解为:这些帖子是垃圾资源帖。
3.我们现在对该数据库进行正则筛选。

由图可以看到,通过正则匹配,我们获得了28295条记录。
由图可以看到有带文件头形式的帖子,通过访问该tid得知,该页面上有“服务器”三个字,故除去此类记录。
我们最终获得的主题帖数目为25218。
也就是说,剩下的帖子,有多达42.1%的帖子与服务器相关联。
剩下的,我也已经不愿再扒了。
4.思考:为什么会变成这样呢?
说白了,就是利益驱动。
论坛哪来的这么多的垃圾帖子,难道真的是论坛火爆吗?
茶馆那些天的数据看起来4000+,甚至1w+,但是实际用户有多少呢?
恐怕一千都不会有吧。
爱国之前说过茶馆一天流量仅仅只是其他板块的十分之一,我觉得非常合理,该说法与计算获得的数据相仿。
话说回来了,这些水帖的,无疑就是把论坛当成了一个变现工具了而已。
我曾经做过测算,当时水帖的净收入也还不如去搬砖,可惜没什么人看。
这个有多少人看我不清楚,但是肯定寥寥无几。
我的评价还在那里:https://www.mcbbs.net/forum.php? ... 392218&pid=27467627
5.附注:这些不能被正常爬到的帖子,包括但不限于被删除的帖子,实际上严重影响了我爬取信息的速度。
好了,话就说到这里。
0.数据来源
本数据库由我自己写的python脚本爬取,实现方法非常简单。
该脚本经过了某BIT教授指点,运行稳定,爬起来都不带停的那种。
写这个脚本的初衷是为了找一个帖子,我记得今年什么时候好像是哪个服主用了BBSToper导致玩家巨量灌水,然后致歉。
这件事情我印象很深,所以当爱国说根本没有服主对玩家灌水行为致歉的时候,我说我记得有,但是我发现我居然忘记收藏了,于是这个帖子就这么找不到了。(无奈)
而我记得那个帖子是在茶馆还是在反馈版来着的,反馈版翻了半天没翻到,茶馆水帖太多了影响查阅,所以说只能拉下来直接正则查找咯。
本来想按pid爬取的,后来发现会因为存在阻力无法克服而无法继续爬取,且按pid顺序爬取的话,工作量太大了。所以我决定直接通过遍历的形式爬取近期所有主题帖。
不过呢,既然爬完了,正好好对这个数据库做一个数据分析。
1.

大家可以看到我这张图代表了什么,说了什么。
这是一个数据库。这个数据库里面装着tid=1300000->tid=1399999的每个帖子的内容。
这个库大约1G,够大了吧,就纯文本啊。
2.我们先打开数据库对主题帖内容进行一个排序。
由于数据库太卡了,进行一次操作都要十几秒,截点图还真的就不容易。
由于在2022-9-11你坛规则大改,这时,tid=1383808。
也就是说以下的数据是经过稀释的,但是仍然具有参考价值。

首先我们可以看到,该数据库有37023条空白记录。
我对我代码稳定性有自信,终端DEBUG数据表明我爬不到数据根本就不是超时问题,所以说我姑且可以认为这个帖子是被删了,当然了,还可能是隐藏板块的问题,包括版主沙龙和末路之地。这些我都可以不算进去,因为比例是在太低了。
那……这也太可怕了,10w条帖子,删除率高达37.0%左右。也就是说,10w条帖子里面,基本上茶馆的主题帖要占到一多半,但是呢,删除的却是绝大多数,这种情况我们可以认为服务器遇到了spam。

这还没完,我们可以看到,到达40100记录的时候这个函数返回值改变了,从HTML文件头变成了精简过的树形body文件。
经过查看发现,这些外显文件头的,都是外显过于陈旧的。
也就是说这么多帖子处于回收区。
我们姑且可以理解为:这些帖子是垃圾资源帖。
3.我们现在对该数据库进行正则筛选。

由图可以看到,通过正则匹配,我们获得了28295条记录。
由图可以看到有带文件头形式的帖子,通过访问该tid得知,该页面上有“服务器”三个字,故除去此类记录。
我们最终获得的主题帖数目为25218。
也就是说,剩下的帖子,有多达42.1%的帖子与服务器相关联。
剩下的,我也已经不愿再扒了。
4.思考:为什么会变成这样呢?
说白了,就是利益驱动。
论坛哪来的这么多的垃圾帖子,难道真的是论坛火爆吗?
茶馆那些天的数据看起来4000+,甚至1w+,但是实际用户有多少呢?
恐怕一千都不会有吧。
爱国之前说过茶馆一天流量仅仅只是其他板块的十分之一,我觉得非常合理,该说法与计算获得的数据相仿。
话说回来了,这些水帖的,无疑就是把论坛当成了一个变现工具了而已。
我曾经做过测算,当时水帖的净收入也还不如去搬砖,可惜没什么人看。
这个有多少人看我不清楚,但是肯定寥寥无几。
我的评价还在那里:https://www.mcbbs.net/forum.php? ... 392218&pid=27467627
5.附注:这些不能被正常爬到的帖子,包括但不限于被删除的帖子,实际上严重影响了我爬取信息的速度。
好了,话就说到这里。
我也不知道说什么好,只希望管理者认真对待论坛。
帖子不错,给你评分
帖子不错,给你评分
我怀疑你说的我

原来你前几天在你组内群发些代码原来是搞这个?
看来还是证明了我的那个猜想:要是不及时改版,你坛早已不可避免的陷进「服务器论坛」的深坑了。太多与服务器有关的帖子充斥着整个论坛,已然吧一个原本应是各位玩家交流心得体会,分享资源的论坛的氛围弄得乌烟瘴气。说实话,那些为了顶帖水帖的人也是怪可怜的,费劲心思,花很多时间,却做着对自己没太多价值的事情,实属可悲!
最后还是敬告各位来论坛的唯一目的是为了顶帖的人:你们的顶帖基本上入不敷出,对你们也毫无意义,纯粹是给你们的腐竹噶韭菜。与其来这里费尽心思灌水顶帖,还不如专心玩你们的服务器去,或者发点在论坛有点价值的东西,这样荣誉和金粒双收,岂不美哉?
最后一句:毛毛辛苦了
看来还是证明了我的那个猜想:要是不及时改版,你坛早已不可避免的陷进「服务器论坛」的深坑了。太多与服务器有关的帖子充斥着整个论坛,已然吧一个原本应是各位玩家交流心得体会,分享资源的论坛的氛围弄得乌烟瘴气。说实话,那些为了顶帖水帖的人也是怪可怜的,费劲心思,花很多时间,却做着对自己没太多价值的事情,实属可悲!
最后还是敬告各位来论坛的唯一目的是为了顶帖的人:你们的顶帖基本上入不敷出,对你们也毫无意义,纯粹是给你们的腐竹噶韭菜。与其来这里费尽心思灌水顶帖,还不如专心玩你们的服务器去,或者发点在论坛有点价值的东西,这样荣誉和金粒双收,岂不美哉?
最后一句:毛毛辛苦了

1G纯文本就觉得大,还是太单纯了。我还在开服的时候,十几G的log都是司空见惯。

直观数据确实明了 大佬牛的
本帖最后由 Stone_ingot 于 2022-12-5 20:29 编辑
本来对论坛内这么多帖子被删掉感到难以置信
但是刚刚我回复一个一分钟前刚发的水帖说不要水,结果帖子已经被删掉了
说明可能有很大一部分水帖我们甚至很难注意到,楼主的这个数据还是很能指出事实的
本来对论坛内这么多帖子被删掉感到难以置信
但是刚刚我回复一个一分钟前刚发的水帖说不要水,结果帖子已经被删掉了
说明可能有很大一部分水帖我们甚至很难注意到,楼主的这个数据还是很能指出事实的
ASCII_404 发表于 2022-12-5 20:04
原来你前几天在你组内群发些代码原来是搞这个?
看来还是证明了我的那个猜想:要是不及时改版,你坛早已不 ...
当时没记错的话是在茶馆群发的吧()

希望那些纯粹为了顶帖而来MCBBS的人好自为之吧。
爬虫玩的好 下一句

冰川橘子 发表于 2022-12-5 19:35
我也不知道说什么好,只希望管理者认真对待论坛。
帖子不错,给你评分
体谅一下吧,他们也要生活
只能说 没办法 这充斥着一些 资本味道
初心应该是 分享 资源的(应该是吧
初心应该是 分享 资源的(应该是吧
楼主好友耐心,说这么多