a5.gif

keoki

GF  2021-09-12 20:45
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)

分享一个爬虫,可抓取2048,村花,魔性,老王论坛最新帖子(已打包成 exe 文件)

已打包成 exe 文件

在文件目录打开cmd命令窗口,运行命令:
如何再命令窗口运行exe文件教程:https://zhidao.baidu.com/question/317017539.html?qbl=relate_question_0

复制代码
  1. daily_updates.exe cunhua
  2. daily_updates.exe moxing
  3. daily_updates.exe laowang
  4. daily_updates.exe 2048


如果是batch版,点击对应的 .bat 文件就可以了,然后浏览器打开对应的html文件

此帖售价 0 SP币,已有 250 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!





写这个目的是想省去上论坛翻资源的时间,爬虫会根据筛选条件自动抓出你想要的帖子。

爬取完成会根据结果生成 html 文件,浏览器可打开,页面显示风格和本坛的图片模式类似。
结果会保存到本地,每次爬取都会对比本地数据库,然后筛选出最新发的帖子在html页面置顶显示。

设置:

设置保存在 config.json 文件内

可设置筛选条件:包含关键词(不同优先级),排除关键词,作者,子版块号

其他设置:爬取页数,并发数量(越大越快),论坛域名

如果论坛的网址换了,更改设置里的论坛域名就行。



参考图:




python3.8, 需要安装的外部库: pip install lxml jinja2 aiohttp

爬取不同论坛需要分别传入不同的参数,示例如下:

复制代码
  1. python daily_updates.py cunhua
  2. python daily_updates.py moxing
  3. python daily_updates.py laowang
  4. python daily_updates.py 2048

a5.gif

keoki

B1F  2021-09-12 20:48
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)

回 1楼(holyS) 的帖子

附件里啊,打包zip文件

a5.gif

keoki

B2F  2021-09-12 20:54
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)

回 5楼(c0d6160e) 的帖子

ffmpeg我也是看文档现学现用的,有问题谷歌吧,你给的信息太少了我也帮不了你。

a5.gif

keoki

B3F  2021-09-15 11:09
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)
已打包成 exe 文件

a5.gif

keoki

B4F  2021-09-15 18:30
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)
测试

a5.gif

keoki

B5F  2021-09-16 00:14
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)

回 48楼(黑羽凌云) 的帖子

不能直接点击exe文件,要把它拖到命令行里运行

a5.gif

keoki

B6F  2021-09-16 00:14
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)

回 49楼(keoki) 的帖子

要不给你们加个batch文件吧?

a5.gif

keoki

B7F  2021-09-17 00:12
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)

回 64楼(3d69b648) 的帖子

这好像是一个 bug ,具体看: https://stackoverflow.com/a/67056687/11887333

解决方法上面有,不过我建议你再 cmd 里设置环境变量,python 会自动继承,你搜一下如何设置 cmd 环境变量。

a5.gif

keoki

B8F  2021-09-17 00:14
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)

回 65楼(thestone) 的帖子

你的报错信息说的很明白了 FileNotFoundError: [Errno 2] No such file or directory:" config. json'

这点基础的英文懂吧? 所有文件都放在一个文件夹里不要移动,不然怎么读配置?

a5.gif

keoki

B9F  2021-09-18 15:02
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)
那就换utf-8

a5.gif

keoki

B10F  2021-09-18 19:48
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)

回 85楼(Metatron) 的帖子

with open("config.json", "r") as file:

这一行,改成

with open("config.json", "r", encoding="utf-8") as file:

a5.gif

keoki

B11F  2021-10-01 13:42
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)

回 136楼(墨血红尘) 的帖子

运行结果截图我看看

a5.gif

keoki

B12F  2021-10-03 14:59
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)

回 138楼(墨血红尘) 的帖子

windows如果是中文系统的话好象默认编码是GBK?
复制代码
  1. with open(f"{self.platform['platform']}_DailyUpdates.html", "w") as fh:
这一行改成
复制代码
  1. with open(f"{self.platform['platform']}_DailyUpdates.html", "w", encoding="utf-8") as fh:

a5.gif

keoki

B13F  2021-10-09 10:27
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)
编辑