
刚才看到此贴:https://www.wnflb66.com/forum.php?mod=viewthread&tid=139123
就无聊写了个简单的…
import requests
import re
def get_html(url):
response=requests.get(url)
return response.content.decode(‘utf8’)
def parse_html(html,page):
pattern = ‘https://mtl.xtpxw.com/images/img/{}/.*?.jpg’.format(page)
url_list = re.findall(pattern, html)
return url_list
def se_pic(url,count):
response=requests.get(url)
#下面保存地址的盘自己改,文件夹要先自己建好
with open(r’c:/happy/美女%s.jpg’%count,’wb’) as f:
f.write(response.content)
def happy():
page1= int(input(“输入页面数字: “))
page2=0
count=1
for i in range(30): #一般都没超过30页,可以自己改大,就是运行时间长点.
start_url=’https://www.meitulu.com/item/{}_{}.html’.format(page1,page2+i)
html=get_html(start_url)
url_list=parse_html(html,page1)
for url in url_list:
se_pic(url,count)
count+=1
if __name__ == “__main__”:
happy()复制代码
2楼:牛逼啊,赶紧用一下
3楼:成果也要分享啊
4楼:
佩服大神。
5楼:给楼主说个简单方法,你观察他的每个图集第一页有一个“图片数量: 142 张”,你用正则表达式把数字提取出来,观察他的每个图片链接都是有规律的,名称都是数字命名,然后用循环构造图片地址并下载图片。
6楼:
SyntaxError: invalid syntax
>>> happy()
File “”, line 1
happy()
^
IndentationError: unexpected indent复制代码
7楼:九天 发表于 20191021 21:26
给楼主说个简单方法,你观察他的每个图集第一页有一个“图片数量: 142 张”,你用正则表达式把数字提取出 …
想过这种方法,图片数除以6取整就是页数,或者网页反馈判断下载,主要是上班网页都没敢打开看。。哈哈。。只能写个基本的。。
8楼:liuxun1987 发表于 20191021 22:28
应该是这行多了空格,你看下
9楼:zylzyl 发表于 20191021 22:46
想过这种方法,图片数除以6取整就是页数,或者网页反馈判断下载,主要是上班网页都没敢打开看。。哈哈。 …
你还是没明白我说的,根本不用算页数,直接构造图片链接,你仔细观察图片链接规律。
10楼:九天 发表于 20191021 23:58
你还是没明白我说的,根本不用算页数,直接构造图片链接,你仔细观察图片链接规律。
刚发现每一页图片都是连号的,我写的时候就看了第一页,以为每一页都是从1.jpg开始
11楼:同样是上班 没办法打开分析 先保存下来了
12楼:先保存下 晚上测试,谢谢了
