Update 网络收集.py
This commit is contained in:
+17
-18
@@ -286,6 +286,20 @@ with open('2.txt', 'w', encoding='utf-8') as new_file:
|
|||||||
print("替换完成,新文件已保存。")
|
print("替换完成,新文件已保存。")
|
||||||
|
|
||||||
|
|
||||||
|
#简体转繁体
|
||||||
|
# 创建一个OpenCC对象,指定转换的规则为繁体字转简体字
|
||||||
|
converter = OpenCC('t2s.json')#繁转简
|
||||||
|
#converter = OpenCC('s2t.json')#简转繁
|
||||||
|
# 打开txt文件
|
||||||
|
with open('2.txt', 'r', encoding='utf-8') as file:
|
||||||
|
traditional_text = file.read()
|
||||||
|
# 进行繁体字转简体字的转换
|
||||||
|
simplified_text = converter.convert(traditional_text)
|
||||||
|
# 将转换后的简体字写入txt文件
|
||||||
|
with open('2.txt', 'w', encoding='utf-8') as file:
|
||||||
|
file.write(simplified_text)
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
######################################################################################提取goodiptv
|
######################################################################################提取goodiptv
|
||||||
import re
|
import re
|
||||||
@@ -297,12 +311,9 @@ excluded_keywords = [
|
|||||||
|
|
||||||
# 定义一个包含所有要提取的关键词的列表
|
# 定义一个包含所有要提取的关键词的列表
|
||||||
extract_keywords = [
|
extract_keywords = [
|
||||||
'凤凰卫视', '人间卫视', '亚洲卫视', '香港卫视', '动作电影', '风云剧场', '怀旧剧场', '影迷电影', '高清电影', '动作电影', '全球大片', '第一剧场', '家庭影院', '神乐', '華藏衛視', \
|
'凤凰卫视', '人间卫视', '亚洲卫视', '香港卫视', '神乐', '翡翠台', '凤凰香港', '凤凰中文', '凤凰资讯', 'AXN', '影视', '电影台', '大爱', '东森', \
|
||||||
'星光影院', '华语电影', '美国大片', '峨眉电影', '谍战剧场', '东方影视', '动漫秀场', '都市剧场', '哈哈炫动', '华语影院', '欢笑剧场', '卡酷少儿', '热门剧场', \
|
'中天', '天良', '翡翠台', '美亚', '星影台', '纬来', '天映', '无线功夫', '华剧台', '华丽台', '新闻台', '亚剧台', 'Movie', '八大', '采昌', \
|
||||||
'热门综艺', '翡翠台', '凤凰香港', '凤凰中文', '凤凰资讯', '都市剧场', '欢笑剧场4K', 'GATV電影台', '不挤影院', '大愛', '東森', '鳳凰資訊', '公視', \
|
'靖天', '美亚', '民視', '中视', '豬哥亮', 'TVB', '东森', '公视', '华视', '寰宇', '靖天', '龙华', '龙祥', '民视', '三立', '中视', '猪哥亮'
|
||||||
'中天', '鳳凰衛視', '寰宇', '黄金翡翠台', '黄金华剧台', '美亚', '星影台', '电影台', '天映', '无线翡翠台', '華視', '欢笑影院', \
|
|
||||||
'无线功夫台', '无线华剧台', '无线华丽台', '无线新闻台', '无线亚剧台', '電影台', '八大', '采昌', '靖天', '龍華', '民視', '中視', '豬哥亮', 'TVB', '东森', '公视', \
|
|
||||||
'华视', '寰宇', '靖天', '龙华', '民视', '三立', '中视', '猪哥亮'
|
|
||||||
# 在这里添加需要提取的关键词
|
# 在这里添加需要提取的关键词
|
||||||
]
|
]
|
||||||
|
|
||||||
@@ -578,18 +589,6 @@ def parse_file(input_file_path, output_file_name):
|
|||||||
parse_file('网络收集.txt', '网络收集.txt')
|
parse_file('网络收集.txt', '网络收集.txt')
|
||||||
|
|
||||||
|
|
||||||
#简体转繁体
|
|
||||||
# 创建一个OpenCC对象,指定转换的规则为繁体字转简体字
|
|
||||||
converter = OpenCC('t2s.json')#繁转简
|
|
||||||
#converter = OpenCC('s2t.json')#简转繁
|
|
||||||
# 打开txt文件
|
|
||||||
with open('网络收集.txt', 'r', encoding='utf-8') as file:
|
|
||||||
traditional_text = file.read()
|
|
||||||
# 进行繁体字转简体字的转换
|
|
||||||
simplified_text = converter.convert(traditional_text)
|
|
||||||
# 将转换后的简体字写入txt文件
|
|
||||||
with open('网络收集.txt', 'w', encoding='utf-8') as file:
|
|
||||||
file.write(simplified_text)
|
|
||||||
|
|
||||||
################################################################################################任务结束,删除不必要的过程文件
|
################################################################################################任务结束,删除不必要的过程文件
|
||||||
files_to_remove = ["2.txt", "汇总.txt"]
|
files_to_remove = ["2.txt", "汇总.txt"]
|
||||||
|
|||||||
Reference in New Issue
Block a user