Skip to content

allrobot/Crawl_novels_websites

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 

Repository files navigation

cool18_novel

收集禁忌书屋的小说

敏感词

敏感词.TXT用于禁止下载匹配的小说

如果小说名有令人不适的字眼,或者说和XP不符,比如绿帽、猎奇等,则停止下载这本小说。 敏感词根据个人需求修改

环境配置

版本:python3.8

pip install beautifulsoup4 urllib3==1.25.11 cchardet aiofiles aiohttp fuzzywuzzy

cool18

爬取禁忌书屋

  • 执行脚本
python Collection_Complete_novel.py

已收集禁忌书屋从2010年至今的帖子源码:

请控制main()的变量concurrency_num值,避免频繁访问堵塞服务器,导致封IP 下载速率为1~2MB/s

必须指定Proxy,main()的proxy变量指定为你的代理服务器地址,默认http://127.0.0.1:7890,如果网络无需代理即可正常访问禁忌书屋,请设proxy = '' 查看代理服务器地址,如果你已安装clash,在主页上方可以看到端口