V1:with no tags

2025-05-09 16:54:05 +08:00 · 2025-05-09 16:54:05 +08:00 · 0863126f74
commit 0863126f74
parent b7f9aa9405
1 changed files with 40 additions and 20 deletions
--- a/Content_Detector.py
+++ b/Content_Detector.py
@ -85,7 +85,7 @@ def detect_content(product_info, content_gen):
 1. 审查与分析：如果存在不符内容，请指出并详细说明原因；
 2. 根据分析修改：参照你分析的不符原因、产品资料、文案上下文，针对所有不符处进行修改（如涉及上下文，可一并修改）。输出修改后文案，务必确保此文案完全符合产品资料，不得遗漏，语言流畅自然、文案风格统一，否则你会像商鞅一样被车裂。
 3. 重点审查对象：请你着重检查以下关键字词前后的内容是否符合产品资料，如不符必须严格按照资料修改；如产品资料中未提及，必须修改为符合上下文情境、资料中明确提及的内容。
-关键字词：价、元、r、人民币、rmb、优惠、活动、福利、赠、免费、折、DIY、跟拍、送、摄影、兑、服务、￥、包、课、提供、选、专业
+关键字词：价、元、r、人民币、rmb、优惠、活动、福利、赠、免费、折、DIY、跟拍、送、摄影、兑、服务、￥、包、课、提供、选、专业、补、差
 4. 字数控制：每个文案的标题字数都必须少于19个字（计数包括文字、符号、数字和emoji）。如果标题超过19个字，请在符合文案风格和背景资料的前提下修改标题到19个字以内，尽量保留emoji，必须保证标题流畅通顺。
 5. 敏感字词替换：请删去标题中的数字后面的“元”和“r”，并将正文中数字后面的“元”字修改为“r”。例如：标题中的399元修改为399，正文中的399元修改为399r                
 6. 特征语句保留：请保留文案中原本的引流语句，不要修改或删除，例如“先关zhu+留下99看到会回复”
@ -98,7 +98,8 @@ def detect_content(product_info, content_gen):
 9. 案例如下，请参考案例评判真假信息的尺度，逐行逐句仔细分析不符点和修改思路，并按照分析思路落实对每一处不符的修改措施，严格审查每一篇文案：
    
                 
-    产品资料：
+<产品资料>：
+                 
    "周末不加收【南沙越秀喜来登】1088元/套，豪华客房1间1晚+双人自助早餐+自助晚餐+2大1小水鸟世界门票，免费儿童乐园，户外泳池+健身房~
    不想待在家，又想带娃出去玩?更不想开长途车、人挤人？为你推荐路程短、不塞车、景点多、坐地铁就能直达的溜娃地!
    南沙越秀喜来登是广州南沙区首家国际品牌酒店，坐拥广州南大门，拥有得天独厚的中心位置，可俯瞰蕉门河美景，车程短，不出广州也能玩！
@ -130,7 +131,8 @@ def detect_content(product_info, content_gen):
    导航关键词:广州南沙越秀喜来登酒店"

                 
-    生成文案：
+<生成文案>：
+                 
    "<title>
    五一遛娃👶必囤！南沙喜来登1088元住景观房+双早+门票
    </title>
@ -169,7 +171,8 @@ def detect_content(product_info, content_gen):
    </content>"

                 
-    不符内容分析：
+<不符内容分析>：
+                 
    1、观察文案标题和内容，可以看出此文案主要面向亲子出游人群，因此修改后的文案也应该围绕亲子出游这一主题。
    2、文章标题字数为28个字，超过19个字，因此属于不符内容。由于要求中提到尽量保留emoji，并且标题中数字后面的“元”字应删去，所以修改为：五一遛娃👶必囤！喜来登1088景观房
    3、产品资料中未提及儿童乐园开放时间和儿童乐园配置，但文案中提到儿童乐园10:00-20:00全程开放，滑梯/积木/绘本一应俱全，因此属于不符内容。应修改为：儿童乐园：免费儿童乐园和丰富的游乐设施，让孩子们可以尽情玩耍。 
@ -180,9 +183,11 @@ def detect_content(product_info, content_gen):
    8、产品材料中未提及房内配有加厚床垫/卡通洗漱杯/尿布台（无需额外购买），因此属于不符内容。应回顾产品资料中关于房内配置的内容，修改为：房内配置：55英寸超大纯平电视+独立的浴缸+超大的落地玻璃窗，尽览蕉门河风景，尽享亲子度假时光。
    9、产品材料中未提及五一专属加码，但文案中提到5月1-5日期间入住，凭房卡可免费领取儿童防晒冰袖+湿巾礼包，因此属于不符内容。应回顾产品资料，找到现有文案未提及的产品特色，修改为：套餐专属福利：1、豪华客房一间一晚(周一至四只开放双床房) 2、2大1小自助早晚餐 3、赠送2大1小水鸟世界门票（酒店前台领取），无需额外购买             
    10、产品资料中未提及水鸟世界门票领取有时间限制，但文案中提到水鸟世界门票需提前1小时至前台领取纸质票，因此属于不符内容。应修改为：酒店前台领取水鸟世界纸质门票
-    综合以上分析结果，将修改应用到原文案中，得到修改后的文案为：
+    综合以上分析结果，将修改应用到原文案中，得到修改后的文案。

-    {{
+<修改后文案>：
+
+{{
    "title": "五一遛娃👶必囤！喜来登1088景观房",
    "content": "五一不想挤人潮？南沙这家酒店直接承包遛娃+度假双重快乐‼️\n地铁直达！2大1小1088r住景观房，含双早+自助晚餐+水鸟世界门票，儿童乐园/泳池/健身房全开放！\n🌟【遛娃刚需全配齐】\n✅ 儿童乐园：酒店设有免费儿童乐园，提供丰富的游乐设施，让孩子们尽情玩耍\n✅ 户外泳池：酒店配有户外无边泳池，供大人小孩一同享受清凉时光  \n✅ 健身房：酒店提供免费健身中心，适合家庭成员共同锻炼。\n\n📍【1小时玩转南沙】\n① 南沙天后宫（车程20分钟）：穿汉服拍大片，听妈祖传说涨知识\n② 南沙湿地公园（40分钟）：5月芦苇摇曳，带娃认鸟类+乘船探秘\n③ 十九涌海鲜街（45分钟）：现捞现煮生猛海鲜，人均50r吃到撑  \n\n🍽️【家长友好细节】  \n• 自助餐厅：供应鲜美海鲜、精美甜品等任君选择，大人小孩都爱吃  \n• 房内配置：55英寸超大纯平电视+独立的浴缸+超大的落地玻璃窗，尽览蕉门河风景，尽享亲子度假时光  \n• 安全保障：酒店设有完善的监控系统和安保措施，全力保障您与家人的安全  \n\n🎁【套餐专属福利】\n1、豪华客房一间一晚(周一至四只开放双床房) \n2、2大1小自助早晚餐 \n3、赠送2大1小水鸟世界门票（酒店前台领取），无需额外购买  \n\n📌Tips：  \n1. 周一至周四仅限双床房型，周五起可选大床房  \n2. 酒店前台领取水鸟世界纸质门票  \n3. 地铁四号线金洲站下车，打车15分钟直达酒店  \n\n这个五一，南沙喜来登让你躺着遛娃！不用长途跋涉，家门口就能玩出仪式感～\n先关zhu+留下99看到会回复\n#五一遛娃 #广州周边游 #亲子酒店推荐"
 }}
@ -348,20 +353,35 @@ def process_json_files(base_dir, product_info_dir):
    logger.info(f"\n===== 内容检测任务开始 =====")
    start_time = time.time()
    
-    # 获取产品资料文件
-    product_info_files = [f for f in os.listdir(product_info_dir) if os.path.isfile(os.path.join(product_info_dir, f))]
-    if not product_info_files:
-        logger.error(f"❌ 错误：产品资料目录中未找到文件")
+    # 获取产品资料内容（读取所有文件夹中的资料）
+    logger.info(f"📄 正在读取产品资料文件夹: {product_info_dir}")
+    product_info = ""
+    
+    # 遍历产品资料目录中的所有文件夹
+    for item in os.listdir(product_info_dir):
+        item_path = os.path.join(product_info_dir, item)
+        if os.path.isdir(item_path):
+            logger.info(f"📂 发现产品资料文件夹: {item}")
+            # 读取该文件夹中的所有文件
+            for file_name in os.listdir(item_path):
+                file_path = os.path.join(item_path, file_name)
+                if os.path.isfile(file_path):
+                    logger.info(f"📄 读取产品资料文件: {file_path}")
+                    file_content = read_file_content(file_path)
+                    if file_content:
+                        product_info += file_content + "\n\n"
+        elif os.path.isfile(item_path):
+            # 也读取直接位于product_info_dir下的文件
+            logger.info(f"📄 读取产品资料文件: {item_path}")
+            file_content = read_file_content(item_path)
+            if file_content:
+                product_info += file_content + "\n\n"
+    
+    if not product_info:
+        logger.error(f"❌ 错误：未能读取到任何产品资料内容")
        return
    
-    # 读取产品资料内容（使用第一个文件）
-    product_info_file = os.path.join(product_info_dir, product_info_files[0])
-    logger.info(f"📄 正在读取产品资料: {product_info_file}")
-    product_info = read_file_content(product_info_file)
-    if not product_info:
-        logger.error(f"❌ 错误：无法读取产品资料内容")
-        return
-    logger.info(f"✅ 成功读取产品资料，长度: {len(product_info)} 字符")
+    logger.info(f"✅ 成功读取所有产品资料，总长度: {len(product_info)} 字符")
    
    # 找到所有需要处理的JSON文件
    logger.info(f"🔍 正在扫描目录查找article.json文件...")
@ -457,8 +477,8 @@ if __name__ == "__main__":
    logger = setup_logger()
    
    # 处理指定目录下的JSON文件
-    base_dir = "/root/autodl-tmp/Content_detector/齐云山"
-    product_info_dir = "/root/autodl-tmp/Content_detector/齐云山/information"
+    base_dir = "/root/autodl-tmp/Content_detector/四季梦幻5"
+    product_info_dir = "/root/autodl-tmp/Content_detector/information"
    
    logger.info(f"🔍 开始处理 {base_dir} 目录下的article.json文件...")
    process_json_files(base_dir, product_info_dir)