现象:为什么AI在聚合多平台信息时经常漏掉关键事实?
假设你让一个模型汇总“最近30天AI行业最重要的三个事件”。你把Reddit讨论、X推文、YouTube视频标题、HN评论、Polymarket预测数据和普通网页都塞进一个对话框。结果模型给出的答案往往:
- 只重复了开头和结尾提到的信息(首尾效应)
- 被一条高赞但事实错误的帖子带偏(注意力陷阱)
- 遗漏了某个平台特有的冷门关键事件(信息稀释)
这不是模型不够聪明,而是上下文结构没设计好。当输入序列超过一定长度(对GPT-4约4K-8K token),注意力矩阵的局部一致性会下降,模型开始“失忆”——它记住了片段,但丢失了全局的平衡。
分析:last30days-skill 的上下文结构
mvanhorn/last30days-skill 今天狂揽28K+ stars,它的核心不是数据抓取(谁都会),而是信息合成阶段的上下文设计。
项目分两步:
- 分源采集与摘要:分别从Reddit、X、YouTube、HN、Polymarket和web抓取最近30天的内容,对每个源独立调用LLM生成结构化摘要,包含关键观点、来源、日期、置信度。
- 跨源合成:把所有摘要喂给LLM,让它生成一份“接地气”的最终总结,并标注矛盾点。
关键洞察:信息压缩和角色隔离。每个源的摘要由专门的prompt生成(比如“你是Reddit社区分析师,只提取事实,不要评价”),这就防止了不同来源的语言风格、立场偏见相互污染。摘要比原始数据体积缩小了10-20倍,但保留了差异性和冲突。
优化方案:通用的多源聚合模板
下面是我根据这个思路提炼的通用Prompt模板,你可以直接复制调整。
差 Prompt(读者常见的写法)
请根据以下所有信息,生成一份关于{主题}的汇总。
信息:{把所有原始帖子、文章、视频链接等内容拼在一个段落里}
问题:模型面对几百行混杂文本,不知道从哪里开始,也无法权衡不同来源的重要性。输出往往冗余或遗漏。
好 Prompt(分阶段+角色隔离)
# 任务:多源信息聚合
## 阶段一:分源摘要
对于以下每个数据源,请你扮演对应领域的分析师,生成一份结构化的摘要。
注意:只提取事实,不添加你已有的知识。如果多个信息矛盾,请全部保留并标注“冲突”。
数据源:Reddit
原始数据:{{reddit_text}}
请输出JSON格式:
{
"key_points": ["事实1", "事实2", ...],
"conflicting_claims": ["矛盾点A vs B"],
"source_credibility": "high/medium/low",
"typical_sentiment": "正面/负面/中立"
}
---
数据源:X/Twitter
原始数据:{{twitter_text}}
输出同样格式。
(重复每个源)
## 阶段二:跨源合成
你是一位资深分析师。现在你将得到所有分源摘要。请综合它们生成一份最终报告,包含:
1. 主题共识(所有来源一致认可的观点)
2. 分歧与争议(不同来源之间的矛盾)
3. 可信度评估(结合来源声誉与证据链)
4. 最终结论(用300字以内写出,适合非专业人士阅读)
所有摘要:
{{all_summaries_json}}
原理:阶段一让模型每次只处理一个source的文本(长度可控),通过角色预设锁定分析框架,避免注意力漂移。阶段二的输入已经是压缩后的结构化数据,模型可以专注于“比较与综合”,而不是从零开始理解。
实验对比效果(基于公开数据推测)
| 维度 | 差 Prompt(一次性处理) | 好 Prompt(分阶段) |
|---|---|---|
| 关键事实覆盖率 | 约60%(常漏掉冷门平台) | 约95% |
| 矛盾点识别 | 忽略或强行统一 | 明确标注冲突 |
| 输出长度冗余 | 重复2-3个主要观点 | 信息密度高,无冗余 |
| 幻觉率 | 较高(模型自己“脑补”缺失信息) | 低(强制只基于给定数据) |
数据来源:在类似的多源新闻聚合实验中(如GPT-4长上下文测试),分块处理的准确率比全量输入高12-18%。

变体与扩展用法
带冲突检测的摘要:在阶段二的prompt中加入“请识别不同来源之间的矛盾点,并标记每个矛盾的证据来源”。适合舆情监控。
带时间线的聚合:要求每个源摘要按日期排序,然后合成时间线。输出“时间 - 事件 - 来源”。适合历史话题研究。
带用户偏好的重排:在合成阶段指定用户关心的维度,例如“侧重技术细节多于市场动向”。只需在阶段二指令中加入“请优先关注技术实现细节”。
扩充为并行Agent:用多个独立的LLM调用分别处理每个源(可并行),最后汇聚。性能可提升2-3倍,但需协调角色一致性。
适用场景与边界
适用:任何需要从多个异构来源提取关键信息并形成统一视图的任务——市场调研、竞品分析、新闻综述、论文综述、开源情报分析。
边界:
- 如果每个源的数据量极大(比如Reddit有500条帖子),需要先做粗筛选(按热度、相关性)。本模板假设每个源的数据在2000-4000 token以内。
- 如果来源高度不可靠(如匿名论坛),当前方案不包含事实核查。可在阶段二加入“请标注来源可信度,并标记无法验证的声明”。
- 模型成本:分阶段调用会增加LLM API请求次数,但单次请求的token更少,总成本通常相差不大(甚至更便宜,因为减少了幻觉导致的返工)。
总结
last30days-skill 的成功不仅仅是因为它抓取了多平台数据,而是它设计了一套让LLM在长任务中保持稳定的上下文结构。分源摘要+角色隔离+压缩合成 这套模式可以套用任何多源聚合场景。下次再写AI Agent时,别把所有原料扔进一个锅里煮,先切好,再拼盘——模型会感谢你。