This commit is contained in:
xiaojunnuo
2026-06-11 01:17:48 +08:00
parent eef93250ac
commit c76815756b
+25
View File
@@ -92,6 +92,31 @@ Certd 是支持私有化部署的 SSL/TLS 证书自动化管理平台,核心
5. 整理报告写入 `reports/YYYY-MM-DD-report.md`
6. 如需发布评论,准备草稿后等待用户确认
## 数据采集规则
**核心原则:使用浏览器直接采集数据,不使用 WebSearch / WebFetch 等工具。**
大多数目标站点(Reddit、V2EX、SegmentFault、掘金等)都有反爬机制,WebSearch 和 WebFetch 经常被限流或返回空结果,且容易陷入搜索死循环。因此数据采集统一通过浏览器模拟操作完成。
1. **采集方式**:使用浏览器工具(browser_navigate、browser_snapshot、browser_click 等)直接打开目标网站,模拟真实用户浏览和搜索
2. **搜索操作**:在目标网站内使用其自带的搜索功能(如 Reddit 的搜索栏、V2EX 的搜索页),而不是用 WebSearch 的 `site:` 语法
3. **代理配置**V2EX、Google 等被墙站点,浏览器需配置代理(`http://127.0.0.1:10811`)后访问
4. **数据提取**:通过 browser_snapshot 获取页面结构,提取帖子标题、链接、时间、热度等信息
5. **链接验证**:采集到的候选链接直接在浏览器中打开确认内容真实有效
6. **禁止使用 WebFetch**:该工具基本被反爬限制,不要使用
7. **谨慎使用 WebSearch**:仅作为辅助手段,用于快速了解某个话题的概况,不作为主要数据采集方式。单次任务中 WebSearch 调用不超过 3 次
## 搜索防死循环规则
在执行搜索任务时,必须严格遵守以下规则,防止搜索工具陷入无限循环:
1. **单源重试上限**:对同一个搜索源,连续 2 次返回无结果后,必须立即跳过该来源,禁止继续变换关键词重试
2. **总搜索次数预算**:单次任务中 WebSearch 调用总数不超过 3 次(仅作辅助用途)
3. **空结果快速失败**:收到 "No results" 时,立即切换到浏览器直接访问目标网站
4. **浏览器优先**:所有数据采集优先通过浏览器完成,WebSearch 仅作为补充
5. **禁止关键词微调循环**:不要在同一来源上反复微调关键词,这会导致无限变种
6. **进度自检**:每采集完一个平台后暂停,评估当前成果是否足够支撑任务,不足时应向用户汇报并征求意见
## 质量自检
写完报告后,逐条检查: