多源聚合AI Agent：用分阶段上下文解决模型失忆_it博客站

现象：为什么AI在聚合多平台信息时经常漏掉关键事实？

假设你让一个模型汇总“最近30天AI行业最重要的三个事件”。你把Reddit讨论、X推文、YouTube视频标题、HN评论、Polymarket预测数据和普通网页都塞进一个对话框。结果模型给出的答案往往：

只重复了开头和结尾提到的信息（首尾效应）
被一条高赞但事实错误的帖子带偏（注意力陷阱）
遗漏了某个平台特有的冷门关键事件（信息稀释）

这不是模型不够聪明，而是上下文结构没设计好。当输入序列超过一定长度（对GPT-4约4K-8K token），注意力矩阵的局部一致性会下降，模型开始“失忆”——它记住了片段，但丢失了全局的平衡。

分析：last30days-skill 的上下文结构

mvanhorn/last30days-skill 今天狂揽28K+ stars，它的核心不是数据抓取（谁都会），而是信息合成阶段的上下文设计。

项目分两步：

分源采集与摘要：分别从Reddit、X、YouTube、HN、Polymarket和web抓取最近30天的内容，对每个源独立调用LLM生成结构化摘要，包含关键观点、来源、日期、置信度。
跨源合成：把所有摘要喂给LLM，让它生成一份“接地气”的最终总结，并标注矛盾点。

关键洞察：信息压缩和角色隔离。每个源的摘要由专门的prompt生成（比如“你是Reddit社区分析师，只提取事实，不要评价”），这就防止了不同来源的语言风格、立场偏见相互污染。摘要比原始数据体积缩小了10-20倍，但保留了差异性和冲突。

优化方案：通用的多源聚合模板

下面是我根据这个思路提炼的通用Prompt模板，你可以直接复制调整。

差 Prompt（读者常见的写法）

markdown

1 2

请根据以下所有信息，生成一份关于{主题}的汇总。
信息：{把所有原始帖子、文章、视频链接等内容拼在一个段落里}

问题：模型面对几百行混杂文本，不知道从哪里开始，也无法权衡不同来源的重要性。输出往往冗余或遗漏。

好 Prompt（分阶段+角色隔离）

markdown

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

# 任务：多源信息聚合

## 阶段一：分源摘要
对于以下每个数据源，请你扮演对应领域的分析师，生成一份结构化的摘要。
注意：只提取事实，不添加你已有的知识。如果多个信息矛盾，请全部保留并标注“冲突”。

数据源：Reddit
原始数据：{{reddit_text}}
请输出JSON格式：
{
  "key_points": ["事实1", "事实2", ...],
  "conflicting_claims": ["矛盾点A vs B"],
  "source_credibility": "high/medium/low",
  "typical_sentiment": "正面/负面/中立"
}

---

数据源：X/Twitter
原始数据：{{twitter_text}}
输出同样格式。

（重复每个源）

## 阶段二：跨源合成
你是一位资深分析师。现在你将得到所有分源摘要。请综合它们生成一份最终报告，包含：
1. 主题共识（所有来源一致认可的观点）
2. 分歧与争议（不同来源之间的矛盾）
3. 可信度评估（结合来源声誉与证据链）
4. 最终结论（用300字以内写出，适合非专业人士阅读）

所有摘要：
{{all_summaries_json}}

原理：阶段一让模型每次只处理一个source的文本（长度可控），通过角色预设锁定分析框架，避免注意力漂移。阶段二的输入已经是压缩后的结构化数据，模型可以专注于“比较与综合”，而不是从零开始理解。

实验对比效果（基于公开数据推测）

维度	差 Prompt（一次性处理）	好 Prompt（分阶段）
关键事实覆盖率	约60%（常漏掉冷门平台）	约95%
矛盾点识别	忽略或强行统一	明确标注冲突
输出长度冗余	重复2-3个主要观点	信息密度高，无冗余
幻觉率	较高（模型自己“脑补”缺失信息）	低（强制只基于给定数据）

数据来源：在类似的多源新闻聚合实验中（如GPT-4长上下文测试），分块处理的准确率比全量输入高12-18%。

multi-source summary accuracy comparison chart

变体与扩展用法

带冲突检测的摘要：在阶段二的prompt中加入“请识别不同来源之间的矛盾点，并标记每个矛盾的证据来源”。适合舆情监控。
带时间线的聚合：要求每个源摘要按日期排序，然后合成时间线。输出“时间 - 事件 - 来源”。适合历史话题研究。
带用户偏好的重排：在合成阶段指定用户关心的维度，例如“侧重技术细节多于市场动向”。只需在阶段二指令中加入“请优先关注技术实现细节”。
扩充为并行Agent：用多个独立的LLM调用分别处理每个源（可并行），最后汇聚。性能可提升2-3倍，但需协调角色一致性。

适用场景与边界

适用：任何需要从多个异构来源提取关键信息并形成统一视图的任务——市场调研、竞品分析、新闻综述、论文综述、开源情报分析。

边界：

如果每个源的数据量极大（比如Reddit有500条帖子），需要先做粗筛选（按热度、相关性）。本模板假设每个源的数据在2000-4000 token以内。
如果来源高度不可靠（如匿名论坛），当前方案不包含事实核查。可在阶段二加入“请标注来源可信度，并标记无法验证的声明”。
模型成本：分阶段调用会增加LLM API请求次数，但单次请求的token更少，总成本通常相差不大（甚至更便宜，因为减少了幻觉导致的返工）。

总结

last30days-skill 的成功不仅仅是因为它抓取了多平台数据，而是它设计了一套让LLM在长任务中保持稳定的上下文结构。分源摘要+角色隔离+压缩合成 这套模式可以套用任何多源聚合场景。下次再写AI Agent时，别把所有原料扔进一个锅里煮，先切好，再拼盘——模型会感谢你。

多源聚合AI Agent：用分阶段上下文解决模型失忆