Update 网络收集.py

This commit is contained in:
frxz751113
2024-08-27 19:54:03 +08:00
committed by GitHub
parent 0e2651c604
commit 25d3fc1983
+17 -18
View File
@@ -286,6 +286,20 @@ with open('2.txt', 'w', encoding='utf-8') as new_file:
print("替换完成,新文件已保存。")
#简体转繁体
# 创建一个OpenCC对象,指定转换的规则为繁体字转简体字
converter = OpenCC('t2s.json')#繁转简
#converter = OpenCC('s2t.json')#简转繁
# 打开txt文件
with open('2.txt', 'r', encoding='utf-8') as file:
traditional_text = file.read()
# 进行繁体字转简体字的转换
simplified_text = converter.convert(traditional_text)
# 将转换后的简体字写入txt文件
with open('2.txt', 'w', encoding='utf-8') as file:
file.write(simplified_text)
######################################################################################提取goodiptv
import re
@@ -297,12 +311,9 @@ excluded_keywords = [
# 定义一个包含所有要提取的关键词的列表
extract_keywords = [
'凤凰卫视', '人间卫视', '亚洲卫视', '香港卫视', '动作电影', '风云剧场', '怀旧剧场', '影迷电影', '高清电影', '动作电影', '全球大片', '第一剧场', '家庭影院', '神乐', '華藏衛視', \
'星光影院', '华语电影', '国大片', '峨眉电影', '谍战剧场', '东方影视', '动漫秀场', '都市剧场', '哈哈炫动', '华语影院', '欢笑剧场', '卡酷少儿', '热门剧场', \
'热门综艺', '翡翠台', '凤凰香港', '凤凰中文', '凤凰资讯', '都市剧场', '欢笑剧场4K', 'GATV電影台', '不挤影院', '大愛', '東森', '鳳凰資訊', '公視', \
'中天', '鳳凰衛視', '寰宇', '黄金翡翠台', '黄金华剧台', '美亚', '星影台', '电影台', '天映', '无线翡翠台', '華視', '欢笑影院', \
'无线功夫台', '无线华剧台', '无线华丽台', '无线新闻台', '无线亚剧台', '電影台', '八大', '采昌', '靖天', '龍華', '民視', '中視', '豬哥亮', 'TVB', '东森', '公视', \
'华视', '寰宇', '靖天', '龙华', '民视', '三立', '中视', '猪哥亮'
'凤凰卫视', '人间卫视', '亚洲卫视', '香港卫视', '神乐', '翡翠台', '凤凰香港', '凤凰中文', '凤凰资讯', 'AXN', '影视', '电影台', '大爱', '东森', \
'中天', '天良', '翡翠台', '', '星影台', '纬来', '天映', '无线功夫', '华剧台', '华丽台', '新闻台', '亚剧台', 'Movie', '八大', '采昌', \
'靖天', '美亚', '民視', '中视', '豬哥亮', 'TVB', '东森', '公视', '华视', '寰宇', '靖天', '龙华', '龙祥', '民视', '三立', '中视', '猪哥亮'
# 在这里添加需要提取的关键词
]
@@ -578,18 +589,6 @@ def parse_file(input_file_path, output_file_name):
parse_file('网络收集.txt', '网络收集.txt')
#简体转繁体
# 创建一个OpenCC对象,指定转换的规则为繁体字转简体字
converter = OpenCC('t2s.json')#繁转简
#converter = OpenCC('s2t.json')#简转繁
# 打开txt文件
with open('网络收集.txt', 'r', encoding='utf-8') as file:
traditional_text = file.read()
# 进行繁体字转简体字的转换
simplified_text = converter.convert(traditional_text)
# 将转换后的简体字写入txt文件
with open('网络收集.txt', 'w', encoding='utf-8') as file:
file.write(simplified_text)
################################################################################################任务结束,删除不必要的过程文件
files_to_remove = ["2.txt", "汇总.txt"]