修改关键词(标题字数控制、标题与正文中的“元”字处理、“详情请致电咨询”语句处理、参数调试)

This commit is contained in:
yujie_jiang 2025-05-07 16:26:11 +08:00
parent 4ae24b6068
commit 35b25f5087

View File

@ -90,10 +90,12 @@ def detect_content(product_info, content_gen):
"title": "修改后的标题", "title": "修改后的标题",
"content": "修改后的内容" "content": "修改后的内容"
}} }}
5. 下面我提供给你一些关键字词请你着重检查这些关键字词前后的内容是否符合产品资料如不符请严格按照资料修改如产品资料中未提及改为"详情请致电咨询" 5. 下面我提供给你一些关键字词请你着重检查这些关键字词前后的内容是否符合产品资料如不符请严格按照资料修改如产品资料中未提及修改为符合上下文情境资料中有提及的内容"
关键字词r人民币rmb优惠活动福利免费DIY跟拍摄影服务 关键字词r人民币rmb优惠活动福利免费DIY跟拍摄影服务
6. 请将数字后面的元字修改为r例如399元修改为399r 6. 标题字数必须少于18个字包括标点符号和emoji如果标题超过18个字请在符合文案风格和背景资料的前提下修改或缩写标题
7. 案例如下请参考案例评判真假信息的尺度仔细分析不符点和修改思路严格审查每一篇文案 7. 请删去标题中的数字后面的r并将正文中数字后面的字修改为r例如标题中的399元修改为399正文中的399元修改为399r
8. 请保留文案中原本的营销引流语句不要修改或删除例如先关zhu+留下99看到会回复
9. 案例如下请参考案例评判真假信息的尺度仔细分析不符点和修改思路严格审查每一篇文案
产品资料 产品资料
"周末不加收【南沙越秀喜来登】1088元/套豪华客房1间1晚+双人自助早餐+自助晚餐+2大1小水鸟世界门票免费儿童乐园户外泳池+健身房~ "周末不加收【南沙越秀喜来登】1088元/套豪华客房1间1晚+双人自助早餐+自助晚餐+2大1小水鸟世界门票免费儿童乐园户外泳池+健身房~
不想待在家又想带娃出去玩?更不想开长途车人挤人为你推荐路程短不塞车景点多 不想待在家又想带娃出去玩?更不想开长途车人挤人为你推荐路程短不塞车景点多
@ -164,6 +166,7 @@ def detect_content(product_info, content_gen):
3. 地铁四号线金洲站下车打车15分钟直达酒店 3. 地铁四号线金洲站下车打车15分钟直达酒店
这个五一南沙喜来登让你躺着遛娃不用长途跋涉家门口就能玩出仪式感 这个五一南沙喜来登让你躺着遛娃不用长途跋涉家门口就能玩出仪式感
先关zhu+留下99看到会回复
#五一遛娃 #广州周边游 #亲子酒店推荐 #五一遛娃 #广州周边游 #亲子酒店推荐
</content>" </content>"
@ -181,17 +184,17 @@ def detect_content(product_info, content_gen):
综合以上分析结果修改后的文案为 综合以上分析结果修改后的文案为
{{ {{
"title": "五一遛娃必囤!南沙喜来登1088元住景观房+双早+门票", "title": "五一遛娃必囤!喜来登1088景观房",
"content": "五一不想挤人潮?南沙这家酒店直接承包遛娃+度假双重快乐‼️\n地铁直达2大1小1088住景观房,含双早+自助晚餐+水鸟世界门票,儿童乐园/泳池/健身房全开放!\n🌟【遛娃刚需全配齐】\n✅ 儿童乐园:酒店设有免费儿童乐园,提供丰富的游乐设施,让孩子们尽情玩耍\n✅ 户外泳池:酒店配有户外无边泳池,供大人小孩一同享受清凉时光 \n✅ 健身房:酒店提供免费健身中心,适合家庭成员共同锻炼。\n\n📍【1小时玩转南沙】\n① 南沙天后宫车程20分钟穿汉服拍大片听妈祖传说涨知识\n② 南沙湿地公园40分钟5月芦苇摇曳带娃认鸟类+乘船探秘\n③ 十九涌海鲜街45分钟现捞现煮生猛海鲜人均50吃到撑 \n\n🍽️【家长友好细节】 \n• 自助餐厅:供应鲜美海鲜、精美甜品等任君选择,大人小孩都爱吃 \n• 房内配置55英寸超大纯平电视+独立的浴缸+超大的落地玻璃窗,尽览蕉门河风景,尽享亲子度假时光 \n• 安全保障:酒店设有完善的监控系统和安保措施,全力保障您与家人的安全 \n\n🎁【套餐专属福利】\n1、豪华客房一间一晚(周一至四只开放双床房) \n2、2大1小自助早晚餐 \n3、赠送2大1小水鸟世界门票酒店前台领取无需额外购买 \n\n📌Tips \n1. 周一至周四仅限双床房型,周五起可选大床房 \n2. 酒店前台领取水鸟世界纸质门票 \n3. 地铁四号线金洲站下车打车15分钟直达酒店 \n\n这个五一,南沙喜来登让你躺着遛娃!不用长途跋涉,家门口就能玩出仪式感~\n#五一遛娃 #广州周边游 #亲子酒店推荐" "content": "五一不想挤人潮?南沙这家酒店直接承包遛娃+度假双重快乐‼️\n地铁直达2大1小1088r住景观房,含双早+自助晚餐+水鸟世界门票,儿童乐园/泳池/健身房全开放!\n🌟【遛娃刚需全配齐】\n✅ 儿童乐园:酒店设有免费儿童乐园,提供丰富的游乐设施,让孩子们尽情玩耍\n✅ 户外泳池:酒店配有户外无边泳池,供大人小孩一同享受清凉时光 \n✅ 健身房:酒店提供免费健身中心,适合家庭成员共同锻炼。\n\n📍【1小时玩转南沙】\n① 南沙天后宫车程20分钟穿汉服拍大片听妈祖传说涨知识\n② 南沙湿地公园40分钟5月芦苇摇曳带娃认鸟类+乘船探秘\n③ 十九涌海鲜街45分钟现捞现煮生猛海鲜人均50r吃到撑 \n\n🍽️【家长友好细节】 \n• 自助餐厅:供应鲜美海鲜、精美甜品等任君选择,大人小孩都爱吃 \n• 房内配置55英寸超大纯平电视+独立的浴缸+超大的落地玻璃窗,尽览蕉门河风景,尽享亲子度假时光 \n• 安全保障:酒店设有完善的监控系统和安保措施,全力保障您与家人的安全 \n\n🎁【套餐专属福利】\n1、豪华客房一间一晚(周一至四只开放双床房) \n2、2大1小自助早晚餐 \n3、赠送2大1小水鸟世界门票酒店前台领取无需额外购买 \n\n📌Tips \n1. 周一至周四仅限双床房型,周五起可选大床房 \n2. 酒店前台领取水鸟世界纸质门票 \n3. 地铁四号线金洲站下车打车15分钟直达酒店 \n\n这个五一,南沙喜来登让你躺着遛娃!不用长途跋涉,家门口就能玩出仪式感~\n先关zhu+留下99看到会回复\n#五一遛娃 #广州周边游 #亲子酒店推荐"
}} }}
{prompt}"""} {prompt}"""}
], ],
temperature=0.3, temperature=0.2,
max_tokens=4096, max_tokens=4096,
top_p=0.9, top_p=0.4,
frequency_penalty=0, frequency_penalty=0.1,
presence_penalty=0 presence_penalty=0.1
) )
# 返回响应文本 # 返回响应文本
@ -251,8 +254,38 @@ def extract_modified_content(result_text):
} }
except json.JSONDecodeError: except json.JSONDecodeError:
logger.warning("</think>后内容不是有效JSON尝试其他提取方法...") logger.warning("</think>后内容不是有效JSON尝试其他提取方法...")
# 如果</think>后不是JSON尝试从```json和```之间提取内容
json_code_match = re.search(r'```json\s*([\s\S]*?)\s*```', after_think, re.DOTALL)
if json_code_match:
try:
json_str = json_code_match.group(1).strip()
content_json = json.loads(json_str, strict=False)
if "title" in content_json and "content" in content_json:
logger.info("成功从</think>后的```json代码块中解析JSON内容")
return {
"title": content_json["title"].strip(),
"content": content_json["content"].strip()
}
except json.JSONDecodeError:
logger.warning("```json代码块解析失败继续尝试其他方法...")
# 如果从</think>后提取失败继续尝试查找JSON对象 # 尝试从整个文本中查找```json代码块
json_code_match = re.search(r'```json\s*([\s\S]*?)\s*```', result_text, re.DOTALL)
if json_code_match:
try:
json_str = json_code_match.group(1).strip()
content_json = json.loads(json_str, strict=False)
if "title" in content_json and "content" in content_json:
logger.info("成功从```json代码块中解析JSON内容")
return {
"title": content_json["title"].strip(),
"content": content_json["content"].strip()
}
except json.JSONDecodeError:
logger.warning("```json代码块解析失败继续尝试其他方法...")
# 如果上述方法都失败继续尝试查找JSON对象
json_start = result_text.find('{') json_start = result_text.find('{')
json_end = result_text.rfind('}') + 1 json_end = result_text.rfind('}') + 1
@ -375,9 +408,12 @@ def process_json_files(base_dir, product_info_dir):
detection_time = time.time() - detection_start detection_time = time.time() - detection_start
logger.info(f"✅ 检测完成,耗时 {detection_time:.2f}") logger.info(f"✅ 检测完成,耗时 {detection_time:.2f}")
# 保存API调用的响应内容到日志目录 - 修改点:所有响应都保存,而不仅仅是提取失败的情况 # 提取文件夹名称用于日志文件命名
folder_name = os.path.basename(os.path.dirname(json_file))
timestamp = get_timestamp() timestamp = get_timestamp()
response_log_file = os.path.join("/root/autodl-tmp/Content_detector/log/log_article", f"{timestamp}_response_{i}_{os.path.basename(json_file)}.txt")
# 保存API调用的响应内容到日志目录使用文件夹名称
response_log_file = os.path.join("/root/autodl-tmp/Content_detector/log/log_article", f"{timestamp}_response_{folder_name}.txt")
save_full_response_to_log(response_log_file, result) save_full_response_to_log(response_log_file, result)
logger.info(f"💾 API响应已保存到: {response_log_file}") logger.info(f"💾 API响应已保存到: {response_log_file}")