本帖最后由 hemp 于 2019-3-8 00:10 编辑
最近在研究爬虫,于是就先从爬取MCBBS帖子入手。用了2天时间爬取了接近60W帖子。
导出的文件有90多M大。第一次见过这么大的纯文本文件。
不得不说,爬虫很强大,但是爬取帖子也消耗了我几十G的流量
分享下结果(如果违反版规请删):https://pan.baidu.com/s/1f3YMgJImk45dVkC5BrocGQ 提取码: g86t
最近在研究爬虫,于是就先从爬取MCBBS帖子入手。用了2天时间爬取了接近60W帖子。
导出的文件有90多M大。第一次见过这么大的纯文本文件。
不得不说,爬虫很强大,
分享下结果(如果违反版规请删):https://pan.baidu.com/s/1f3YMgJImk45dVkC5BrocGQ 提取码: g86t
友情提示~有错字:违“反”
雨夜蔷薇 发表于 2019-3-8 00:42
http://www.mcbbs.net/thread-782680-1-1.html
也可以做一个这样的帖子来着
(滑稽)
原理都一样,个人喜欢爬帖子,在数据库里一搜索,那感觉(滑稽)
哈哈,抓取内容
全是大佬
个人认为是大佬)
大佬牛,但是这也从侧面反映了,帖子很多,也就是说mcbbs是中国最大的论坛
文本文件压缩之后能缩小80%的……
mcbbs真的不缺各路大神
不干正经事就算了还发表出来23333
60W……
这的确有点多了……
这的确有点多了……
都是大佬,我等只能默默的看着大佬
你这算不算自首。。。
这种文本帖子偷了也没啥用吧233
加油哦 爬这个只是入门哦~加油!!
厉害丫
最近论坛设置的防火墙使得没以前好爬了。(虽然也就是搞个代理的事。。。)
xmdhs 发表于 2019-3-8 23:06
最近论坛设置的防火墙使得没以前好爬了。(虽然也就是搞个代理的事。。。)
...
貌似没有影响
xmdhs 发表于 2019-3-8 23:08
又变了吗?
之前可是随便刷新两下就 503 的
我一秒请求10来个页面也没有问题
雨夜蔷薇 发表于 2019-3-8 00:42
http://www.mcbbs.net/thread-782680-1-1.html
也可以做一个这样的帖子来着
(滑稽)
这帖子的积分最少之最笑死我
爬虫是什么?
不知道爬虫是什么,有什么样的意义
袁隆平你看看你养了个什么人!
炫宙菌 发表于 2019-3-8 23:27
爬虫是什么?
你可以理解成百度
无聊+1
我也干过
爬取的目的是什么?
太强了啊
社会23333