第一版主 小说爬虫

本帖最后由 悦~ 于 2019825 11:37 编辑
之前有看到

第一版主 小说爬虫

本帖最后由 悦~ 于 2019825 11:37 编辑

之前有看到,有福娃推荐了 风雨中的罂粟花 , https://www.wnflb66.com/forum.ph … hlight=%D0%A1%CB%B5

但是是网页版本的,公司也不准看,所以就写了一个爬虫,把书给爬下来了。

# * coding:utf8 *

“””

Python 3.6+

pip install requests_html

将小说的第一章,地址 copy ,修改 first_url 运行即可。

如果出错,请自行检查 http://www.001banzhu.net 是否还能正常访问。

“””

from requests_html import HTMLSession

session = HTMLSession()

# 小说首页

first_url = ‘http://www.001banzhu.net/3_3158/213028.html’

def main():

url = first_url

novel_name = None

data = list()

while url:

html = session.get(url).html

# 获取小说名

if novel_name is None: novel_name = html.find(‘.con_top > a’)[1].text.strip()

# 获取当页 章节名

title = html.find(‘div.bookname > h1’, first=True).text

title = title.replace(‘【’, ”).replace(‘】’, ”)

print(title)

data.append(title)

# 获取当页正文内容

data.append(html.find(‘#content’, first=True).text.strip())

# 页面相关标签

page_tags = html.find(‘#wrapper > div.content_read > div > div.bottem2 > a’)

# 下一页 标签

next_tag = page_tags[2]

# 目录标签

toc_tag = page_tags[3]

# 如果两个标签的url一致说明 结束了。

next_links = next_tag.absolute_links

if len(next_links | toc_tag.absolute_links) != 1:

url = next(iter(next_links))

else:

url = None

print(f'{novel_name} 下载完成’)

# 写入文本

with open(f'{novel_name}.txt’, ‘w’, encoding=’utf8′) as f:

f.write(‘\n’.join(data))

if __name__ == ‘__main__’:

main()

复制代码

下载好了的,本来有准备的,后面忘了,福娃需要,我就补上吧 https://1.bitsend.jp/download/acba0aa5334b254cc8f440ae70281a73.html

2楼:楼主,现在的Python的就业形势如何?我的学历只有中专,大公司都会嫌弃吧。

3楼:分类好乱,没法批量采集,正常小说和cheng ren xiao shuo混在一起

4楼:这种详细的备注真好,适合我这种初学者看

5楼:你还不如直接下好呢 费事

6楼:授人以鱼不如授人以渔

受教了

话说6楼的头像是那个车啊

有好孩子擦擦键盘不

7楼:我家猫儿叫球球 发表于 2019824 14:27

授人以鱼不如授人以渔

受教了

话说6楼的头像是那个车啊

新司机?赤井美月

8楼:djy995 发表于 2019824 15:29

新司机?赤井美月

感谢感谢

小的比较眼拙

9楼:感谢分享

10楼:膜拜大佬

11楼:qq767993844 发表于 2019824 13:49

你还不如直接下好呢 费事

交出你的头像

12楼:老哥 不知道咋用啊

13楼:楼主能直接下载下来吗 看不懂啊 谢谢谢谢!!

14楼:零基础的我是真的一点看不懂

15楼:补习的呼唤 发表于 2019824 13:02

楼主,现在的Python的就业形势如何?我的学历只有中专,大公司都会嫌弃吧。

花钱去搞个大人高考,学历是很多门槛!

16楼:作为一个py初学者,这份代码的吸引力比H文大多了

17楼:这个咋用啊。。。新版本好孩子看不见嘛?

18楼:很强大,学以致用!

19楼:zhang0000 发表于 2019824 13:15

说实话,很多黑客是小学毕业,你经常看到新闻上说某黄赌毒,写wai gua的,只有小学学历。阿里巴巴也有很多低 …

什么都不懂就别乱说话害人了

20楼:补习的呼唤 发表于 2019824 13:02

楼主,现在的Python的就业形势如何?我的学历只有中专,大公司都会嫌弃吧。

网络上说python多么多么好,都是骗人的,都是培训机构拿水军灌的帖子,只因为python知识点不难,入门容易,培训简单好赚钱。如果想入门的话还是学个主流语言,不过学历关还是很难。可以试试学个冷门的语言,企业是在招不到人的话可能就把你放进去了

21楼:zhang0000 发表于 2019824 13:15

说实话,很多黑客是小学毕业,你经常看到新闻上说某黄赌毒,写wai gua的,只有小学学历。阿里巴巴也有很多低 …

别害人啊。。。如果很容易能做到就不会上新闻了而且媒体总是添油加醋不说实话。。。换句话说低学历做黑客是小概率事件,如果不是天赋异禀 普通人扎进去不过浪费青春罢了

22楼:牛人,我觉得会技术的人最棒1

23楼:兰博小鸡妮 发表于 2019827 16:05

牛人,我觉得会技术的人最棒1

感觉你对技术有点崇拜啊,我小小的虚荣心哈哈,努力学习吧!加油喔!

24楼:网址改下可以爬这个网站别的小说么

25楼:alex655 发表于 2019829 14:15

网址改下可以爬这个网站别的小说么

只是第一版主的小说,才行

26楼:看着你们探讨问题真高级,只有不明白怎么用吗……

27楼:我的目标是写一个php的弄净daili,例如针对第一版主,或者1024

然后扔到外面的vps上

想了好久了,光daili没意思啊

28楼:东西是好东西,但是爬下来的好多乱码和格式错误,对于我这种非精校版不看的相当不友好。

29楼:sadada63 发表于 201992 11:05

东西是好东西,但是爬下来的好多乱码和格式错误,对于我这种非精校版不看的相当不友好。

他本身的质量就那样,我也没辙啊!要是福娃找到精校版本的可以 告诉我喔

(0)

相关推荐