From 536b20a7d3f353d2005ca3b0b68f947fe8a00ed4 Mon Sep 17 00:00:00 2001 From: frxz751113 <156018267+frxz751113@users.noreply.github.com> Date: Sat, 31 Aug 2024 21:34:46 +0800 Subject: [PATCH] =?UTF-8?q?Update=20=E9=85=92=E5=BA=97=E6=BA=90.py?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- py/酒店源.py | 15 +++++++-------- 1 file changed, 7 insertions(+), 8 deletions(-) diff --git a/py/酒店源.py b/py/酒店源.py index b1e325f..46d90b0 100644 --- a/py/酒店源.py +++ b/py/酒店源.py @@ -45,7 +45,7 @@ def modify_urls(url): ip_start_index = url.find("//") + 2 # 找到 URL 中 IP 地址结束的索引位置,从 ip_start_index 开始查找第一个 ":" 的位置 ip_end_index = url.find(":", ip_start_index) - # 获取 URL 的基础部分,即从开头到 IP 地址开始的部分 + # 找到 URL 中 IP 地址结束的索引位置,从 ip_start_index 开始查找第一个 ":" 的位置 base_url = url[:ip_start_index] # 获取 URL 中的 IP 地址部分 ip_address = url[ip_start_index:ip_end_index] @@ -85,13 +85,13 @@ for url in urls: page_content = response.text # 查找所有符合指定格式的网址 - pattern = r"http://\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d+" # 设置匹配的格式,如 http://8.8.8.8:8888 + pattern = r"http://\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d+" # 设置匹配的格式,如 http://8.8.8.8:8888 # 使用正则表达式在页面内容中查找所有符合格式的 URL urls_all = re.findall(pattern, page_content) - # urls = list(set(urls_all)) # 去重得到唯一的 URL 列表 - urls = set(urls_all) # 去重得到唯一的 URL 列表 + # urls = list(set(urls_all)) # 去重得到唯一的URL列表 + urls = set(urls_all) # 去重得到唯一的URL列表 x_urls = [] - for url in urls: # 对 urls 进行处理,ip 第四位修改为 1,并去重 + for url in urls: # 对urls进行处理,ip第四位修改为1,并去重 url = url.strip() # 找到 URL 中 IP 地址开始的索引位置,"//" 后两个字符开始为 IP 地址起始位置 ip_start_index = url.find("//") + 2 @@ -117,9 +117,9 @@ for url in urls: x_url = f"{base_url}{modified_ip}{port}" # 将新的 URL 添加到列表中 x_urls.append(x_url) - urls = set(x_urls) # 去重得到唯一的 URL 列表 + urls = set(x_urls) # 去重得到唯一的URL列表 valid_urls = [] - # 多线程获取可用 url + # 多线程获取可用url with concurrent.futures.ThreadPoolExecutor(max_workers=100) as executor: futures = [] for url in urls: @@ -136,7 +136,6 @@ for url in urls: valid_urls.append(result) for url in valid_urls: print(url) - # 遍历网址列表,获取JSON文件并解析 for url in valid_urls: try: