
本帖最后由 Jayson 于 20181224 17:20 编辑
嗯,继上一贴以后,前几天有福吧的兄弟给我发站内信让我看看另外一个站,
上一贴传送门:http://www.wnflb.com/thread12583311.html
今天刚好有时间,抽了点空闲写出来。
需要python3的环境,需要依赖库的支持:requests、lxml、beautifulsop4
可能是我的网络有问题,本地访问速度着实感人,所以我挂在了服务器上面跑。
代码老规矩,依旧上传在GitHub上面,附上地址:
https://github.com/thompson1966/spider/blob/master/tuao8/crawler.py
运行效果图:
网址部分已经打码处理,违规请管理老大删除。
2楼:羡慕会爬虫斗的
3楼:大佬真的6,羡慕会爬虫的
4楼:最关键一行 url = ‘https://www.tuao8.com/’
5楼:sueking 发表于 20181224 21:49
最关键一行 url = ‘https://www.tuao8.com/’
你怎么辣么秀
6楼:厉害了厉害了
7楼:
大佬,为什么我的用不了啊
8楼:intercourse 发表于 20181224 22:56
大佬,为什么我的用不了啊
WIN平台吧? 把第一行的utf8 改成gbk
9楼:能用于其它网站不?
10楼:支持 支持 支持技术贴
11楼:支持下大佬
12楼:问一下大佬,这些代码在win平台上用什么来运行比较好用。chrome上可行吗
13楼:看到了盼盼 哈哈哈楼主有打包的文件吗
14楼:哈哈哈啊~
15楼:
最关键一行 url = ‘https://www.tuao8.com/’
羡慕你们这些有空儿、有地方调试的人,
16楼:timeout 你值得用拥有!!!
17楼:这个是大神,膜拜膜拜膜拜
18楼:求新手教程,也想学
19楼:羡慕有技术的啊
20楼:分类ID是啥
21楼:阿嚏全球 发表于 20181225 20:01
分类ID是啥
网址中你点击分类就会出现category{ID}.html 你输入那个数字就成
22楼:人生癫疯 发表于 20181225 12:43
问一下大佬,这些代码在win平台上用什么来运行比较好用。chrome上可行吗
需要用Python运行
23楼:lovestar 发表于 20181225 19:00
求新手教程,也想学
额····百度一堆吧···或者你可以看官方文档。。。
24楼:会不会被反扒?
25楼:人生癫疯 发表于 20181225 12:43
问一下大佬,这些代码在win平台上用什么来运行比较好用。chrome上可行吗
python与chrome有关系吗
26楼:Jayson 发表于 20181225 00:16
WIN平台吧? 把第一行的utf8 改成gbk
大佬,改成gbk后变成这样了
27楼:intercourse 发表于 20181226 00:28
大佬,改成gbk后变成这样了
你需要使用文件编辑软件来编辑文件,而不是使用win的记事本,不然文件会自动加上BOM信息
28楼:sueking 发表于 20181224 21:49
最关键一行 url = ‘https://www.tuao8.com/’
你最厉害,糟了,是心动的感觉
29楼:厉害了,支持一波
