
本帖最后由 悦~ 于 2019825 11:37 编辑
之前有看到,有福娃推荐了 风雨中的罂粟花 , https://www.wnflb66.com/forum.ph … hlight=%D0%A1%CB%B5
但是是网页版本的,公司也不准看,所以就写了一个爬虫,把书给爬下来了。
# * coding:utf8 *
“””
Python 3.6+
pip install requests_html
将小说的第一章,地址 copy ,修改 first_url 运行即可。
如果出错,请自行检查 http://www.001banzhu.net 是否还能正常访问。
“””
from requests_html import HTMLSession
session = HTMLSession()
# 小说首页
first_url = ‘http://www.001banzhu.net/3_3158/213028.html’
def main():
url = first_url
novel_name = None
data = list()
while url:
html = session.get(url).html
# 获取小说名
if novel_name is None: novel_name = html.find(‘.con_top > a’)[1].text.strip()
# 获取当页 章节名
title = html.find(‘div.bookname > h1’, first=True).text
title = title.replace(‘【’, ”).replace(‘】’, ”)
print(title)
data.append(title)
# 获取当页正文内容
data.append(html.find(‘#content’, first=True).text.strip())
# 页面相关标签
page_tags = html.find(‘#wrapper > div.content_read > div > div.bottem2 > a’)
# 下一页 标签
next_tag = page_tags[2]
# 目录标签
toc_tag = page_tags[3]
# 如果两个标签的url一致说明 结束了。
next_links = next_tag.absolute_links
if len(next_links | toc_tag.absolute_links) != 1:
url = next(iter(next_links))
else:
url = None
print(f'{novel_name} 下载完成’)
# 写入文本
with open(f'{novel_name}.txt’, ‘w’, encoding=’utf8′) as f:
f.write(‘\n’.join(data))
if __name__ == ‘__main__’:
main()
复制代码
下载好了的,本来有准备的,后面忘了,福娃需要,我就补上吧 https://1.bitsend.jp/download/acba0aa5334b254cc8f440ae70281a73.html
2楼:楼主,现在的Python的就业形势如何?我的学历只有中专,大公司都会嫌弃吧。
3楼:分类好乱,没法批量采集,正常小说和cheng ren xiao shuo混在一起
4楼:这种详细的备注真好,适合我这种初学者看
5楼:你还不如直接下好呢 费事
6楼:授人以鱼不如授人以渔
受教了
话说6楼的头像是那个车啊
有好孩子擦擦键盘不
7楼:我家猫儿叫球球 发表于 2019824 14:27
授人以鱼不如授人以渔
受教了
话说6楼的头像是那个车啊
新司机?赤井美月
8楼:djy995 发表于 2019824 15:29
新司机?赤井美月
感谢感谢
小的比较眼拙
9楼:感谢分享
10楼:膜拜大佬
11楼:qq767993844 发表于 2019824 13:49
你还不如直接下好呢 费事
交出你的头像
12楼:老哥 不知道咋用啊
13楼:楼主能直接下载下来吗 看不懂啊 谢谢谢谢!!
14楼:零基础的我是真的一点看不懂
15楼:补习的呼唤 发表于 2019824 13:02
楼主,现在的Python的就业形势如何?我的学历只有中专,大公司都会嫌弃吧。
花钱去搞个大人高考,学历是很多门槛!
16楼:作为一个py初学者,这份代码的吸引力比H文大多了
17楼:这个咋用啊。。。新版本好孩子看不见嘛?
18楼:很强大,学以致用!
19楼:zhang0000 发表于 2019824 13:15
说实话,很多黑客是小学毕业,你经常看到新闻上说某黄赌毒,写wai gua的,只有小学学历。阿里巴巴也有很多低 …
什么都不懂就别乱说话害人了
20楼:补习的呼唤 发表于 2019824 13:02
楼主,现在的Python的就业形势如何?我的学历只有中专,大公司都会嫌弃吧。
网络上说python多么多么好,都是骗人的,都是培训机构拿水军灌的帖子,只因为python知识点不难,入门容易,培训简单好赚钱。如果想入门的话还是学个主流语言,不过学历关还是很难。可以试试学个冷门的语言,企业是在招不到人的话可能就把你放进去了
21楼:zhang0000 发表于 2019824 13:15
说实话,很多黑客是小学毕业,你经常看到新闻上说某黄赌毒,写wai gua的,只有小学学历。阿里巴巴也有很多低 …
别害人啊。。。如果很容易能做到就不会上新闻了而且媒体总是添油加醋不说实话。。。换句话说低学历做黑客是小概率事件,如果不是天赋异禀 普通人扎进去不过浪费青春罢了
22楼:牛人,我觉得会技术的人最棒1
23楼:兰博小鸡妮 发表于 2019827 16:05
牛人,我觉得会技术的人最棒1
感觉你对技术有点崇拜啊,我小小的虚荣心哈哈,努力学习吧!加油喔!
24楼:网址改下可以爬这个网站别的小说么
25楼:alex655 发表于 2019829 14:15
网址改下可以爬这个网站别的小说么
只是第一版主的小说,才行
26楼:看着你们探讨问题真高级,只有不明白怎么用吗……
27楼:我的目标是写一个php的弄净daili,例如针对第一版主,或者1024
然后扔到外面的vps上
想了好久了,光daili没意思啊
28楼:东西是好东西,但是爬下来的好多乱码和格式错误,对于我这种非精校版不看的相当不友好。
29楼:sadada63 发表于 201992 11:05
东西是好东西,但是爬下来的好多乱码和格式错误,对于我这种非精校版不看的相当不友好。
他本身的质量就那样,我也没辙啊!要是福娃找到精校版本的可以 告诉我喔
