V1:with no tags

This commit is contained in:
yujie_jiang 2025-05-09 16:54:05 +08:00
parent b7f9aa9405
commit 0863126f74

View File

@ -85,7 +85,7 @@ def detect_content(product_info, content_gen):
1. 审查与分析如果存在不符内容请指出并详细说明原因 1. 审查与分析如果存在不符内容请指出并详细说明原因
2. 根据分析修改参照你分析的不符原因产品资料文案上下文针对所有不符处进行修改如涉及上下文可一并修改输出修改后文案务必确保此文案完全符合产品资料不得遗漏语言流畅自然文案风格统一否则你会像商鞅一样被车裂 2. 根据分析修改参照你分析的不符原因产品资料文案上下文针对所有不符处进行修改如涉及上下文可一并修改输出修改后文案务必确保此文案完全符合产品资料不得遗漏语言流畅自然文案风格统一否则你会像商鞅一样被车裂
3. 重点审查对象请你着重检查以下关键字词前后的内容是否符合产品资料如不符必须严格按照资料修改如产品资料中未提及必须修改为符合上下文情境资料中明确提及的内容 3. 重点审查对象请你着重检查以下关键字词前后的内容是否符合产品资料如不符必须严格按照资料修改如产品资料中未提及必须修改为符合上下文情境资料中明确提及的内容
关键字词r人民币rmb优惠活动福利免费DIY跟拍摄影服务提供专业 关键字词r人民币rmb优惠活动福利免费DIY跟拍摄影服务提供专业
4. 字数控制每个文案的标题字数都必须少于19个字计数包括文字符号数字和emoji如果标题超过19个字请在符合文案风格和背景资料的前提下修改标题到19个字以内尽量保留emoji必须保证标题流畅通顺 4. 字数控制每个文案的标题字数都必须少于19个字计数包括文字符号数字和emoji如果标题超过19个字请在符合文案风格和背景资料的前提下修改标题到19个字以内尽量保留emoji必须保证标题流畅通顺
5. 敏感字词替换请删去标题中的数字后面的r并将正文中数字后面的字修改为r例如标题中的399元修改为399正文中的399元修改为399r 5. 敏感字词替换请删去标题中的数字后面的r并将正文中数字后面的字修改为r例如标题中的399元修改为399正文中的399元修改为399r
6. 特征语句保留请保留文案中原本的引流语句不要修改或删除例如先关zhu+留下99看到会回复 6. 特征语句保留请保留文案中原本的引流语句不要修改或删除例如先关zhu+留下99看到会回复
@ -98,7 +98,8 @@ def detect_content(product_info, content_gen):
9. 案例如下请参考案例评判真假信息的尺度逐行逐句仔细分析不符点和修改思路并按照分析思路落实对每一处不符的修改措施严格审查每一篇文案 9. 案例如下请参考案例评判真假信息的尺度逐行逐句仔细分析不符点和修改思路并按照分析思路落实对每一处不符的修改措施严格审查每一篇文案
产品资料 <产品资料>
"周末不加收【南沙越秀喜来登】1088元/套豪华客房1间1晚+双人自助早餐+自助晚餐+2大1小水鸟世界门票免费儿童乐园户外泳池+健身房~ "周末不加收【南沙越秀喜来登】1088元/套豪华客房1间1晚+双人自助早餐+自助晚餐+2大1小水鸟世界门票免费儿童乐园户外泳池+健身房~
不想待在家又想带娃出去玩?更不想开长途车人挤人为你推荐路程短不塞车景点多坐地铁就能直达的溜娃地! 不想待在家又想带娃出去玩?更不想开长途车人挤人为你推荐路程短不塞车景点多坐地铁就能直达的溜娃地!
南沙越秀喜来登是广州南沙区首家国际品牌酒店坐拥广州南大门拥有得天独厚的中心位置可俯瞰蕉门河美景车程短不出广州也能玩 南沙越秀喜来登是广州南沙区首家国际品牌酒店坐拥广州南大门拥有得天独厚的中心位置可俯瞰蕉门河美景车程短不出广州也能玩
@ -130,7 +131,8 @@ def detect_content(product_info, content_gen):
导航关键词:广州南沙越秀喜来登酒店" 导航关键词:广州南沙越秀喜来登酒店"
生成文案 <生成文案>
"<title> "<title>
五一遛娃👶必囤南沙喜来登1088元住景观房+双早+门票 五一遛娃👶必囤南沙喜来登1088元住景观房+双早+门票
</title> </title>
@ -169,7 +171,8 @@ def detect_content(product_info, content_gen):
</content>" </content>"
不符内容分析 <不符内容分析>
1观察文案标题和内容可以看出此文案主要面向亲子出游人群因此修改后的文案也应该围绕亲子出游这一主题 1观察文案标题和内容可以看出此文案主要面向亲子出游人群因此修改后的文案也应该围绕亲子出游这一主题
2文章标题字数为28个字超过19个字因此属于不符内容由于要求中提到尽量保留emoji并且标题中数字后面的字应删去所以修改为五一遛娃👶必囤喜来登1088景观房 2文章标题字数为28个字超过19个字因此属于不符内容由于要求中提到尽量保留emoji并且标题中数字后面的字应删去所以修改为五一遛娃👶必囤喜来登1088景观房
3产品资料中未提及儿童乐园开放时间和儿童乐园配置但文案中提到儿童乐园10:00-20:00全程开放滑梯/积木/绘本一应俱全因此属于不符内容应修改为儿童乐园免费儿童乐园和丰富的游乐设施让孩子们可以尽情玩耍 3产品资料中未提及儿童乐园开放时间和儿童乐园配置但文案中提到儿童乐园10:00-20:00全程开放滑梯/积木/绘本一应俱全因此属于不符内容应修改为儿童乐园免费儿童乐园和丰富的游乐设施让孩子们可以尽情玩耍
@ -180,9 +183,11 @@ def detect_content(product_info, content_gen):
8产品材料中未提及房内配有加厚床垫/卡通洗漱杯/尿布台无需额外购买因此属于不符内容应回顾产品资料中关于房内配置的内容修改为房内配置55英寸超大纯平电视+独立的浴缸+超大的落地玻璃窗尽览蕉门河风景尽享亲子度假时光 8产品材料中未提及房内配有加厚床垫/卡通洗漱杯/尿布台无需额外购买因此属于不符内容应回顾产品资料中关于房内配置的内容修改为房内配置55英寸超大纯平电视+独立的浴缸+超大的落地玻璃窗尽览蕉门河风景尽享亲子度假时光
9产品材料中未提及五一专属加码但文案中提到5月1-5日期间入住凭房卡可免费领取儿童防晒冰袖+湿巾礼包因此属于不符内容应回顾产品资料找到现有文案未提及的产品特色修改为套餐专属福利1豪华客房一间一晚(周一至四只开放双床房) 22大1小自助早晚餐 3赠送2大1小水鸟世界门票酒店前台领取无需额外购买 9产品材料中未提及五一专属加码但文案中提到5月1-5日期间入住凭房卡可免费领取儿童防晒冰袖+湿巾礼包因此属于不符内容应回顾产品资料找到现有文案未提及的产品特色修改为套餐专属福利1豪华客房一间一晚(周一至四只开放双床房) 22大1小自助早晚餐 3赠送2大1小水鸟世界门票酒店前台领取无需额外购买
10产品资料中未提及水鸟世界门票领取有时间限制但文案中提到水鸟世界门票需提前1小时至前台领取纸质票因此属于不符内容应修改为酒店前台领取水鸟世界纸质门票 10产品资料中未提及水鸟世界门票领取有时间限制但文案中提到水鸟世界门票需提前1小时至前台领取纸质票因此属于不符内容应修改为酒店前台领取水鸟世界纸质门票
综合以上分析结果将修改应用到原文案中得到修改后的文案 综合以上分析结果将修改应用到原文案中得到修改后的文案
{{ <修改后文案>
{{
"title": "五一遛娃👶必囤喜来登1088景观房", "title": "五一遛娃👶必囤喜来登1088景观房",
"content": "五一不想挤人潮?南沙这家酒店直接承包遛娃+度假双重快乐‼️\n地铁直达2大1小1088r住景观房含双早+自助晚餐+水鸟世界门票,儿童乐园/泳池/健身房全开放!\n🌟【遛娃刚需全配齐】\n✅ 儿童乐园:酒店设有免费儿童乐园,提供丰富的游乐设施,让孩子们尽情玩耍\n✅ 户外泳池:酒店配有户外无边泳池,供大人小孩一同享受清凉时光 \n✅ 健身房:酒店提供免费健身中心,适合家庭成员共同锻炼。\n\n📍【1小时玩转南沙】\n① 南沙天后宫车程20分钟穿汉服拍大片听妈祖传说涨知识\n② 南沙湿地公园40分钟5月芦苇摇曳带娃认鸟类+乘船探秘\n③ 十九涌海鲜街45分钟现捞现煮生猛海鲜人均50r吃到撑 \n\n🍽️【家长友好细节】 \n• 自助餐厅:供应鲜美海鲜、精美甜品等任君选择,大人小孩都爱吃 \n• 房内配置55英寸超大纯平电视+独立的浴缸+超大的落地玻璃窗,尽览蕉门河风景,尽享亲子度假时光 \n• 安全保障:酒店设有完善的监控系统和安保措施,全力保障您与家人的安全 \n\n🎁【套餐专属福利】\n1、豪华客房一间一晚(周一至四只开放双床房) \n2、2大1小自助早晚餐 \n3、赠送2大1小水鸟世界门票酒店前台领取无需额外购买 \n\n📌Tips \n1. 周一至周四仅限双床房型,周五起可选大床房 \n2. 酒店前台领取水鸟世界纸质门票 \n3. 地铁四号线金洲站下车打车15分钟直达酒店 \n\n这个五一,南沙喜来登让你躺着遛娃!不用长途跋涉,家门口就能玩出仪式感~\n先关zhu+留下99看到会回复\n#五一遛娃 #广州周边游 #亲子酒店推荐" "content": "五一不想挤人潮?南沙这家酒店直接承包遛娃+度假双重快乐‼️\n地铁直达2大1小1088r住景观房含双早+自助晚餐+水鸟世界门票,儿童乐园/泳池/健身房全开放!\n🌟【遛娃刚需全配齐】\n✅ 儿童乐园:酒店设有免费儿童乐园,提供丰富的游乐设施,让孩子们尽情玩耍\n✅ 户外泳池:酒店配有户外无边泳池,供大人小孩一同享受清凉时光 \n✅ 健身房:酒店提供免费健身中心,适合家庭成员共同锻炼。\n\n📍【1小时玩转南沙】\n① 南沙天后宫车程20分钟穿汉服拍大片听妈祖传说涨知识\n② 南沙湿地公园40分钟5月芦苇摇曳带娃认鸟类+乘船探秘\n③ 十九涌海鲜街45分钟现捞现煮生猛海鲜人均50r吃到撑 \n\n🍽️【家长友好细节】 \n• 自助餐厅:供应鲜美海鲜、精美甜品等任君选择,大人小孩都爱吃 \n• 房内配置55英寸超大纯平电视+独立的浴缸+超大的落地玻璃窗,尽览蕉门河风景,尽享亲子度假时光 \n• 安全保障:酒店设有完善的监控系统和安保措施,全力保障您与家人的安全 \n\n🎁【套餐专属福利】\n1、豪华客房一间一晚(周一至四只开放双床房) \n2、2大1小自助早晚餐 \n3、赠送2大1小水鸟世界门票酒店前台领取无需额外购买 \n\n📌Tips \n1. 周一至周四仅限双床房型,周五起可选大床房 \n2. 酒店前台领取水鸟世界纸质门票 \n3. 地铁四号线金洲站下车打车15分钟直达酒店 \n\n这个五一,南沙喜来登让你躺着遛娃!不用长途跋涉,家门口就能玩出仪式感~\n先关zhu+留下99看到会回复\n#五一遛娃 #广州周边游 #亲子酒店推荐"
}} }}
@ -348,20 +353,35 @@ def process_json_files(base_dir, product_info_dir):
logger.info(f"\n===== 内容检测任务开始 =====") logger.info(f"\n===== 内容检测任务开始 =====")
start_time = time.time() start_time = time.time()
# 获取产品资料文件 # 获取产品资料内容(读取所有文件夹中的资料)
product_info_files = [f for f in os.listdir(product_info_dir) if os.path.isfile(os.path.join(product_info_dir, f))] logger.info(f"📄 正在读取产品资料文件夹: {product_info_dir}")
if not product_info_files: product_info = ""
logger.error(f"❌ 错误:产品资料目录中未找到文件")
# 遍历产品资料目录中的所有文件夹
for item in os.listdir(product_info_dir):
item_path = os.path.join(product_info_dir, item)
if os.path.isdir(item_path):
logger.info(f"📂 发现产品资料文件夹: {item}")
# 读取该文件夹中的所有文件
for file_name in os.listdir(item_path):
file_path = os.path.join(item_path, file_name)
if os.path.isfile(file_path):
logger.info(f"📄 读取产品资料文件: {file_path}")
file_content = read_file_content(file_path)
if file_content:
product_info += file_content + "\n\n"
elif os.path.isfile(item_path):
# 也读取直接位于product_info_dir下的文件
logger.info(f"📄 读取产品资料文件: {item_path}")
file_content = read_file_content(item_path)
if file_content:
product_info += file_content + "\n\n"
if not product_info:
logger.error(f"❌ 错误:未能读取到任何产品资料内容")
return return
# 读取产品资料内容(使用第一个文件) logger.info(f"✅ 成功读取所有产品资料,总长度: {len(product_info)} 字符")
product_info_file = os.path.join(product_info_dir, product_info_files[0])
logger.info(f"📄 正在读取产品资料: {product_info_file}")
product_info = read_file_content(product_info_file)
if not product_info:
logger.error(f"❌ 错误:无法读取产品资料内容")
return
logger.info(f"✅ 成功读取产品资料,长度: {len(product_info)} 字符")
# 找到所有需要处理的JSON文件 # 找到所有需要处理的JSON文件
logger.info(f"🔍 正在扫描目录查找article.json文件...") logger.info(f"🔍 正在扫描目录查找article.json文件...")
@ -457,8 +477,8 @@ if __name__ == "__main__":
logger = setup_logger() logger = setup_logger()
# 处理指定目录下的JSON文件 # 处理指定目录下的JSON文件
base_dir = "/root/autodl-tmp/Content_detector/齐云山" base_dir = "/root/autodl-tmp/Content_detector/四季梦幻5"
product_info_dir = "/root/autodl-tmp/Content_detector/齐云山/information" product_info_dir = "/root/autodl-tmp/Content_detector/information"
logger.info(f"🔍 开始处理 {base_dir} 目录下的article.json文件...") logger.info(f"🔍 开始处理 {base_dir} 目录下的article.json文件...")
process_json_files(base_dir, product_info_dir) process_json_files(base_dir, product_info_dir)