Update 酒店源.py

This commit is contained in:
frxz751113
2024-08-31 21:34:46 +08:00
committed by GitHub
parent 100bd9ab76
commit 536b20a7d3
+6 -7
View File
@@ -45,7 +45,7 @@ def modify_urls(url):
ip_start_index = url.find("//") + 2 ip_start_index = url.find("//") + 2
# 找到 URL 中 IP 地址结束的索引位置,从 ip_start_index 开始查找第一个 ":" 的位置 # 找到 URL 中 IP 地址结束的索引位置,从 ip_start_index 开始查找第一个 ":" 的位置
ip_end_index = url.find(":", ip_start_index) ip_end_index = url.find(":", ip_start_index)
# 获取 URL 的基础部分,即从开头到 IP 地址开始的部分 # 找到 URL 中 IP 地址结束的索引位置,从 ip_start_index 开始查找第一个 ":" 的位置
base_url = url[:ip_start_index] base_url = url[:ip_start_index]
# 获取 URL 中的 IP 地址部分 # 获取 URL 中的 IP 地址部分
ip_address = url[ip_start_index:ip_end_index] ip_address = url[ip_start_index:ip_end_index]
@@ -88,10 +88,10 @@ for url in urls:
pattern = r"http://\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d+" # 设置匹配的格式,如 http://8.8.8.8:8888 pattern = r"http://\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d+" # 设置匹配的格式,如 http://8.8.8.8:8888
# 使用正则表达式在页面内容中查找所有符合格式的 URL # 使用正则表达式在页面内容中查找所有符合格式的 URL
urls_all = re.findall(pattern, page_content) urls_all = re.findall(pattern, page_content)
# urls = list(set(urls_all)) # 去重得到唯一的 URL 列表 # urls = list(set(urls_all)) # 去重得到唯一的URL列表
urls = set(urls_all) # 去重得到唯一的 URL 列表 urls = set(urls_all) # 去重得到唯一的URL列表
x_urls = [] x_urls = []
for url in urls: # 对 urls 进行处理ip 第四位修改为 1并去重 for url in urls: # 对urls进行处理,ip第四位修改为1,并去重
url = url.strip() url = url.strip()
# 找到 URL 中 IP 地址开始的索引位置,"//" 后两个字符开始为 IP 地址起始位置 # 找到 URL 中 IP 地址开始的索引位置,"//" 后两个字符开始为 IP 地址起始位置
ip_start_index = url.find("//") + 2 ip_start_index = url.find("//") + 2
@@ -117,9 +117,9 @@ for url in urls:
x_url = f"{base_url}{modified_ip}{port}" x_url = f"{base_url}{modified_ip}{port}"
# 将新的 URL 添加到列表中 # 将新的 URL 添加到列表中
x_urls.append(x_url) x_urls.append(x_url)
urls = set(x_urls) # 去重得到唯一的 URL 列表 urls = set(x_urls) # 去重得到唯一的URL列表
valid_urls = [] valid_urls = []
# 多线程获取可用 url # 多线程获取可用url
with concurrent.futures.ThreadPoolExecutor(max_workers=100) as executor: with concurrent.futures.ThreadPoolExecutor(max_workers=100) as executor:
futures = [] futures = []
for url in urls: for url in urls:
@@ -136,7 +136,6 @@ for url in urls:
valid_urls.append(result) valid_urls.append(result)
for url in valid_urls: for url in valid_urls:
print(url) print(url)
# 遍历网址列表,获取JSON文件并解析 # 遍历网址列表,获取JSON文件并解析
for url in valid_urls: for url in valid_urls:
try: try: