a5.gif

keoki

GF  2021-09-12 20:45
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)

分享一个爬虫,可抓取2048,村花,魔性,老王论坛最新帖子(已打包成 exe 文件)

已打包成 exe 文件

在文件目录打开cmd命令窗口,运行命令:
如何再命令窗口运行exe文件教程:https://zhidao.baidu.com/question/317017539.html?qbl=relate_question_0

复制代码
  1. daily_updates.exe cunhua
  2. daily_updates.exe moxing
  3. daily_updates.exe laowang
  4. daily_updates.exe 2048


如果是batch版,点击对应的 .bat 文件就可以了,然后浏览器打开对应的html文件

此帖售价 0 SP币,已有 251 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!





写这个目的是想省去上论坛翻资源的时间,爬虫会根据筛选条件自动抓出你想要的帖子。

爬取完成会根据结果生成 html 文件,浏览器可打开,页面显示风格和本坛的图片模式类似。
结果会保存到本地,每次爬取都会对比本地数据库,然后筛选出最新发的帖子在html页面置顶显示。

设置:

设置保存在 config.json 文件内

可设置筛选条件:包含关键词(不同优先级),排除关键词,作者,子版块号

其他设置:爬取页数,并发数量(越大越快),论坛域名

如果论坛的网址换了,更改设置里的论坛域名就行。



参考图:




python3.8, 需要安装的外部库: pip install lxml jinja2 aiohttp

爬取不同论坛需要分别传入不同的参数,示例如下:

复制代码
  1. python daily_updates.py cunhua
  2. python daily_updates.py moxing
  3. python daily_updates.py laowang
  4. python daily_updates.py 2048

223896.jpg

神机营把总

B1F  2021-09-14 21:15
谢谢大佬。