Update 网络收集.py
This commit is contained in:
+2
-2
@@ -296,7 +296,8 @@ excluded_keywords = [
|
|||||||
|
|
||||||
# 定义一个包含所有要提取的关键词的列表
|
# 定义一个包含所有要提取的关键词的列表
|
||||||
extract_keywords = [
|
extract_keywords = [
|
||||||
'CCTV', '卫视', '动作电影', '风云剧场', '怀旧剧场', '影迷', '高清电影', '动作电影', '影院', '全球大片', '第一剧场', 'TVB', '家庭影院', '神乐电影', '星光', '华语', '美国大片', '峨眉', '凤凰', '星空', '人间', '亚洲', '环球'
|
'CCTV', '卫视', '动作电影', '风云剧场', '怀旧剧场', '影迷电影', '高清电影', '动作电影', '全球大片', '第一剧场', 'TVB', '家庭影院', '神乐电影', '星光影院', '华语电影', \
|
||||||
|
'美国大片', '峨眉电影', '凤凰中文', '凤凰卫视', '凤凰资讯'
|
||||||
# 在这里添加需要提取的关键词
|
# 在这里添加需要提取的关键词
|
||||||
]
|
]
|
||||||
|
|
||||||
@@ -521,7 +522,6 @@ with open("网络收集.txt", "w", encoding="utf-8") as file:
|
|||||||
|
|
||||||
|
|
||||||
import re
|
import re
|
||||||
|
|
||||||
def parse_file(input_file_path, output_file_name):
|
def parse_file(input_file_path, output_file_name):
|
||||||
# 正则表达式匹配从'//'开始到第一个'/'或第一个'::'结束的部分
|
# 正则表达式匹配从'//'开始到第一个'/'或第一个'::'结束的部分
|
||||||
ip_or_domain_pattern = re.compile(r'//([^/:]*:[^/:]*::[^/:]*|[^/]*)')
|
ip_or_domain_pattern = re.compile(r'//([^/:]*:[^/:]*::[^/:]*|[^/]*)')
|
||||||
|
|||||||
Reference in New Issue
Block a user