V1:with no tags

2025-05-09 16:54:05 +08:00 · 2025-05-09 16:54:05 +08:00 · 0863126f74
commit 0863126f74
parent b7f9aa9405
1 changed files with 40 additions and 20 deletions
--- a/Content_Detector.py
+++ b/Content_Detector.py
@ -85,7 +85,7 @@ def detect_content(product_info, content_gen):
 1. 审查与分析：如果存在不符内容，请指出并详细说明原因；
 2. 根据分析修改：参照你分析的不符原因、产品资料、文案上下文，针对所有不符处进行修改（如涉及上下文，可一并修改）。输出修改后文案，务必确保此文案完全符合产品资料，不得遗漏，语言流畅自然、文案风格统一，否则你会像商鞅一样被车裂。
 3. 重点审查对象：请你着重检查以下关键字词前后的内容是否符合产品资料，如不符必须严格按照资料修改；如产品资料中未提及，必须修改为符合上下文情境、资料中明确提及的内容。
-关键字词：价、元、r、人民币、rmb、优惠、活动、福利、赠、免费、折、DIY、跟拍、送、摄影、兑、服务、￥、包、课、提供、选、专业
+关键字词：价、元、r、人民币、rmb、优惠、活动、福利、赠、免费、折、DIY、跟拍、送、摄影、兑、服务、￥、包、课、提供、选、专业、补、差
 4. 字数控制：每个文案的标题字数都必须少于19个字（计数包括文字、符号、数字和emoji）。如果标题超过19个字，请在符合文案风格和背景资料的前提下修改标题到19个字以内，尽量保留emoji，必须保证标题流畅通顺。
 5. 敏感字词替换：请删去标题中的数字后面的“元”和“r”，并将正文中数字后面的“元”字修改为“r”。例如：标题中的399元修改为399，正文中的399元修改为399r                
 6. 特征语句保留：请保留文案中原本的引流语句，不要修改或删除，例如“先关zhu+留下99看到会回复”
@ -98,7 +98,8 @@ def detect_content(product_info, content_gen):
 9. 案例如下，请参考案例评判真假信息的尺度，逐行逐句仔细分析不符点和修改思路，并按照分析思路落实对每一处不符的修改措施，严格审查每一篇文案：
-    产品资料：
+<产品资料>：
    "周末不加收【南沙越秀喜来登】1088元/套，豪华客房1间1晚+双人自助早餐+自助晚餐+2大1小水鸟世界门票，免费儿童乐园，户外泳池+健身房~
    不想待在家，又想带娃出去玩?更不想开长途车、人挤人？为你推荐路程短、不塞车、景点多、坐地铁就能直达的溜娃地!
    南沙越秀喜来登是广州南沙区首家国际品牌酒店，坐拥广州南大门，拥有得天独厚的中心位置，可俯瞰蕉门河美景，车程短，不出广州也能玩！
@ -130,7 +131,8 @@ def detect_content(product_info, content_gen):
    导航关键词:广州南沙越秀喜来登酒店"
-    生成文案：
+<生成文案>：
    "<title>
    五一遛娃👶必囤！南沙喜来登1088元住景观房+双早+门票
    </title>
@ -169,7 +171,8 @@ def detect_content(product_info, content_gen):
    </content>"
-    不符内容分析：
+<不符内容分析>：
    1、观察文案标题和内容，可以看出此文案主要面向亲子出游人群，因此修改后的文案也应该围绕亲子出游这一主题。
    2、文章标题字数为28个字，超过19个字，因此属于不符内容。由于要求中提到尽量保留emoji，并且标题中数字后面的“元”字应删去，所以修改为：五一遛娃👶必囤！喜来登1088景观房
    3、产品资料中未提及儿童乐园开放时间和儿童乐园配置，但文案中提到儿童乐园10:00-20:00全程开放，滑梯/积木/绘本一应俱全，因此属于不符内容。应修改为：儿童乐园：免费儿童乐园和丰富的游乐设施，让孩子们可以尽情玩耍。 
@ -180,7 +183,9 @@ def detect_content(product_info, content_gen):
    8、产品材料中未提及房内配有加厚床垫/卡通洗漱杯/尿布台（无需额外购买），因此属于不符内容。应回顾产品资料中关于房内配置的内容，修改为：房内配置：55英寸超大纯平电视+独立的浴缸+超大的落地玻璃窗，尽览蕉门河风景，尽享亲子度假时光。
    9、产品材料中未提及五一专属加码，但文案中提到5月1-5日期间入住，凭房卡可免费领取儿童防晒冰袖+湿巾礼包，因此属于不符内容。应回顾产品资料，找到现有文案未提及的产品特色，修改为：套餐专属福利：1、豪华客房一间一晚(周一至四只开放双床房) 2、2大1小自助早晚餐 3、赠送2大1小水鸟世界门票（酒店前台领取），无需额外购买             
    10、产品资料中未提及水鸟世界门票领取有时间限制，但文案中提到水鸟世界门票需提前1小时至前台领取纸质票，因此属于不符内容。应修改为：酒店前台领取水鸟世界纸质门票
-    综合以上分析结果，将修改应用到原文案中，得到修改后的文案为：
+    综合以上分析结果，将修改应用到原文案中，得到修改后的文案。
 <修改后文案>：
 {{
    "title": "五一遛娃👶必囤！喜来登1088景观房",
@ -348,20 +353,35 @@ def process_json_files(base_dir, product_info_dir):
    logger.info(f"\n===== 内容检测任务开始 =====")
    start_time = time.time()
-    # 获取产品资料文件
+    # 获取产品资料内容（读取所有文件夹中的资料）
-    product_info_files = [f for f in os.listdir(product_info_dir) if os.path.isfile(os.path.join(product_info_dir, f))]
+    logger.info(f"📄 正在读取产品资料文件夹: {product_info_dir}")
-    if not product_info_files:
+    product_info = ""
-        logger.error(f"❌ 错误：产品资料目录中未找到文件")
+    
    # 遍历产品资料目录中的所有文件夹
    for item in os.listdir(product_info_dir):
        item_path = os.path.join(product_info_dir, item)
        if os.path.isdir(item_path):
            logger.info(f"📂 发现产品资料文件夹: {item}")
            # 读取该文件夹中的所有文件
            for file_name in os.listdir(item_path):
                file_path = os.path.join(item_path, file_name)
                if os.path.isfile(file_path):
                    logger.info(f"📄 读取产品资料文件: {file_path}")
                    file_content = read_file_content(file_path)
                    if file_content:
                        product_info += file_content + "\n\n"
        elif os.path.isfile(item_path):
            # 也读取直接位于product_info_dir下的文件
            logger.info(f"📄 读取产品资料文件: {item_path}")
            file_content = read_file_content(item_path)
            if file_content:
                product_info += file_content + "\n\n"
    if not product_info:
        logger.error(f"❌ 错误：未能读取到任何产品资料内容")
        return
-    # 读取产品资料内容（使用第一个文件）
+    logger.info(f"✅ 成功读取所有产品资料，总长度: {len(product_info)} 字符")
    product_info_file = os.path.join(product_info_dir, product_info_files[0])
    logger.info(f"📄 正在读取产品资料: {product_info_file}")
    product_info = read_file_content(product_info_file)
    if not product_info:
        logger.error(f"❌ 错误：无法读取产品资料内容")
        return
    logger.info(f"✅ 成功读取产品资料，长度: {len(product_info)} 字符")
    # 找到所有需要处理的JSON文件
    logger.info(f"🔍 正在扫描目录查找article.json文件...")
@ -457,8 +477,8 @@ if __name__ == "__main__":
    logger = setup_logger()
    # 处理指定目录下的JSON文件
-    base_dir = "/root/autodl-tmp/Content_detector/齐云山"
+    base_dir = "/root/autodl-tmp/Content_detector/四季梦幻5"
-    product_info_dir = "/root/autodl-tmp/Content_detector/齐云山/information"
+    product_info_dir = "/root/autodl-tmp/Content_detector/information"
    logger.info(f"🔍 开始处理 {base_dir} 目录下的article.json文件...")
    process_json_files(base_dir, product_info_dir)