Hermes WebUI 实战：用提示词模板打造自主代理任务

昨天 GitHub 上冒出一个 12487 stars 的项目 Hermes WebUI，一句话总结：给 Hermes Agent 套上了网页可用的 GUI，还能在手机上操作。

但对我来说，这不仅仅是一个 UI 包装。它意味着：我不用再对着命令行敲 hermes run --task "xxx"，可以直接在聊天框里像用 ChatGPT 一样，让自主代理去搜索、写代码、分析数据。

然而，正因为界面变简单了，很多人会像用普通聊天机器人一样随便写提示词，然后吐槽“不好用”。其实问题不在模型，在于你给的提示词根本没有让代理理解该调用哪个工具、按什么顺序执行。

这篇文章我准备直接上实战：从安装完 WebUI 后的第一步开始，分享我自己测试过的 3 套提示词模板，并对比“随便写”与“结构化写”的效果差异。读完你就能直接用，还能根据自己的任务场景改写。

1. Hermes WebUI 解决了什么问题

先快速带过，不啰嗦。Hermes Agent 是一个开源的自主代理框架，底层基于 Nous Research 的 Hermes 2 Mixtral 8x7B 模型。它内置了联网搜索、文件读写、代码执行、进程管理等多种工具。

之前你要用它的能力，只能通过 Python 脚本或命令行。现在有了 WebUI：

对个人开发者：在浏览器里就能启动 agent，边聊边观测每一步的思考过程（Chain of Thought）和工具调用结果。
对手机党：PWA 兼容，可以像用普通聊天 App 一样随时丢一个任务过去，后台执行。
对团队：自带会话管理，可以分享执行记录，方便复盘提示词怎么写才有效。

不过我要说的重点是：界面只是入口，真正决定任务成败的是你输入的提示词的质量。

2. 核心思路：为什么写提示词要“给代理画路线图”

普通聊天模型（如 GPT-4）的提示词，只要说清楚“做什么”就行，剩下的模型会靠内部知识或实时对话来填充。但自主代理不同，它需要决定什么时候调用搜索、什么时候写文件、什么时候终止。如果你把任务描述得模糊，它就会在工具调用上犹豫不决，或者错误分配工具。

举个例子：

❌ 差 Prompt
帮我研究一下最新的 AI 开源项目。

你会得到一堆模棱两可的结果：代理可能只搜索了“AI”这个关键词，返回了 10 个 github 仓库，但没有排序、没有摘要、没有说明它们分别解决了什么问题。

✅ 好 Prompt

text

1 2 3 4 5

请使用搜索工具，关键词 ["2025年3月 AI 开源项目", "trending AI repos March 2025"]，
获取前 15 个结果，并根据 star 数从高到低排序。
输出 Markdown 表格，包含：仓库名、描述、Stars、语言。
如果某个仓库描述不清晰，再搜索一次它的 README 补充。
最终只保留 10 个。

效果完全不一样：代理会明确调用两次搜索，整理成表格，并且去核实信息。

背后的原理很简单——自主代理的执行策略高度依赖 prompt 中明确指明的“工具链”和“输出格式”。你没有给线路图，它就自己猜，一猜就错。

3. 完整提示词模板（可直接复制）

下面是我在 Hermes WebUI 上反复测试并优化过的三个模板，覆盖日常使用最频繁的场景。注意，模板里的 {任务} {语言} 等标记需要你自己替换。

模板 1：信息搜集+整理（适合日报/竞品分析）

text

1 2 3 4 5 6 7 8 9 10 11 12 13 14

任务：{任务描述，如“收集2025年3月Python异步框架的对比信息”}

工具调用顺序：
1. 首先使用【搜索工具】查询至少两个不同的关键词（用引号括起来）
2. 对于每个搜索结果，使用【打开链接工具】阅读排名前三的博客或官方文档
3. 使用【写文件工具】将最终结果保存为 /tmp/output.md

输出要求：
- 以列表形式给出至少5个框架，每个框架包含：名称、核心特点、适用场景、GitHub Stars（如有）
- 最后给出一个小结，说明哪个框架最适合REST API服务，哪个最适合事件驱动

约束：
- 只能使用上述工具，不要生成虚构数据
- 如果某个信息无法通过搜索确认，明确标注“未找到可靠来源”

使用说明：把这段 prompt 粘贴到 WebUI 的输入框，修改 {任务} 部分即可。代理会依次执行搜索→阅读→整理→写文件。最终结果存到 /tmp/output.md 里，你可以在 WebUI 的文件预览区直接查看。

模板 2：代码生成+测试（适合自动化脚本）

text

1 2 3 4 5 6 7 8 9 10 11 12 13

任务：编写一个Python脚本，功能为 {功能描述，如“批量调整图片大小到800x600”}。

工具调用顺序：
1. 使用【搜索工具】查找是否有现成的Python库推荐，关键词："python批量图片大小调整 library"
2. 搜索到的库如果有官方示例，阅读并提取核心API
3. 使用【写文件工具】创建脚本文件 /tmp/resize.py
4. 使用【代码执行工具】运行 `python /tmp/resize.py` 并捕获输出
5. 如果运行报错，分析错误后修改脚本，重复步骤3-4，最多重试3次
6. 最后输出运行成功的截图或结果的摘要

输出要求：
- 将最终版本的脚本代码粘贴在回答中
- 并说明使用的库版本和 Python 版本（通过 `python --version` 和 `pip list | grep 库名` 获取）

特别提醒：Hermes Agent 默认使用 Python 3.10 环境，内置常见库（Pillow、requests 等）。如果你的脚本需要 pip install，可以在 prompt 里增加一步安装命令。但注意避免权限问题。

模板 3：多步骤分析+决策（适合日常决策辅助）

text

1 2 3 4 5 6 7 8 9 10 11 12

任务：我想在 {条件A} 和 {条件B} 之间做选择，帮我收集数据并对比。

步骤：
1. 搜索关键词 ["{条件A} 优缺点", "{条件B} 优缺点", "{条件A} vs {条件B} 对比"]
2. 打开排名前2的搜索结果，提取关键数据点（价格、性能、用户评价）
3. 用表格对比两个选项，列出至少5个维度
4. 根据对比，给出一个建议并附上理由

约束：
- 所有数据必须来自搜索到的网页，不能主观臆断
- 如果对比维度上数据不完整，标注“数据缺失”
- 最终输出 Markdown 格式，表格对齐

4. 效果演示：差 Prompt vs 好 Prompt 对比

我在同一台服务器上用 Hermes WebUI 测试了两个 prompt，任务都是“列出2025年值得关注的CSS框架”。

❌ 差 Prompt（纯自然语言）

text

给我推荐2025年值得关注的CSS框架

代理执行过程：只调用了一次搜索工具，关键词是“CSS frameworks”，返回了通用列表，没有筛选年份，没有说明推荐理由，最后直接打印了 8 个框架的名字，没有排序，输出杂乱。整个过程耗时 12 秒，质量中等。

✅ 好 Prompt（结构化模板）

text

1 2 3 4 5 6 7 8 9 10

任务：推荐2025年值得关注的CSS框架

工具调用顺序：
1. 搜索关键词 ["best CSS frameworks 2025", "CSS frameworks trending 2025"]
2. 阅读排名前3的结果页
3. 提取每个框架的核心特点、适用场景、GitHub Stars
4. 将结果按Stars从高到低排序，输出Markdown表格
5. 在表格最后加一列“适合新手吗？”（标记是/否/中等）

约束：如果某个框架在2025年没有重大更新，标注“2025年未发布新版本”

代理执行过程：两次搜索，打开 3 个页面，提取数据并排序，自动判断“适合新手”列，最后输出整齐的表格。总耗时 31 秒，但结果质量远超差 prompt。它不仅包含了 Astro、Tailwind、Bootstrap 等，还指出了哪个框架在 2025 年发布了 4.x 版本。

你可能会想：31 秒太长了吧？但实际等待时，WebUI 会流式显示思考过程和工具调用日志，你甚至可以看到 agent 说“现在打开第二个链接提取数据”，这种可观测性让等待变得可以接受，而且结果一次成型，不需要你手动再整理。

5. 变体和注意事项

变体 1：语言切换

如果你希望代理用中文输出结果，在提示词开头加上 请用中文回答 即可。但要注意，工具调用的日志仍然是英文（模型内部语言），最终输出才会被翻译。这是 Hermes 2 模型本身的特性，不影响执行质量。

变体 2：限制工具使用范围

有些任务你不想让代理执行代码（安全原因），可以在 prompt 里明确：

text

禁用工具：代码执行工具。只允许使用搜索、打开链接和写文件工具。

Hermes WebUI 会遵守这个约束，如果尝试调用被禁工具，agent 会重新规划。

变体 3：链式任务

如果你需要更复杂的流水线（比如先搜集数据，然后基于数据写报告，再发邮件），可以把任务拆分成两个 prompt 串行执行。目前 Hermes WebUI 支持在同一会话里继续对话，你可以让 agent 先完成第一步，确认结果后再发第二个 prompt 继续。这种方法比一个 prompt 塞所有步骤更容易调试。

注意事项

模型能力天花板：Hermes Agent 底层模型是 Mixtral 8x7B，在复杂逻辑推理上不如 GPT-4，但足够处理 80% 的日常任务。如果你发现某些任务反复失败（比如多步推理的数学题），可以尝试把任务分解得更细。
工具调用可靠性：有时候搜索工具返回空结果（比如关键词拼写错误），agent 会尝试用不同的关键词重试。如果 3 次都失败，它会如实报告“未找到结果”。所以建议在 prompt 里提供备选关键词。
文件系统：WebUI 中 agent 可以读写 /tmp/ 和用户目录下的 hermes_workspace 文件夹。写文件时推荐使用绝对路径，避免混淆。
并发限制：免费使用 Hermes WebUI 时，一次只能运行一个任务。如果需要并行处理，可以本地部署多个实例。项目提供了 Docker 部署方式，可在 GitHub 找到。

6. 我的最终建议

如果你只是好奇尝鲜，直接安装 WebUI 然后随便丢几个 prompt 试试。但如果你想把它当生产力工具，一定要花 10 分钟为常用场景写好结构化的 prompt 模板。我上面提供的三个模板已经覆盖了 90% 的日常需求，你只需替换任务描述和具体参数。

我个人的工作流是：每周一早上用模板 1 自动生成行业动态报告，保存到 /tmp/weekly_report.md，然后手动发送给团队。以前这需要我花半小时人工搜集，现在 2 分钟出初稿，我只需检查一遍即可。

最后提醒：项目还很新（今天才冲上 GitHub 榜首），文档和社区支持还在完善。遇到问题时，可以直接在 GitHub Issues 里反馈，或者翻看模型本身的文档 Hermes 2 Model Card。

记住，工具始终是杠杆，你的提示词才是支点。祝你用 Hermes WebUI 省下更多时间。

Hermes WebUI 实战：用提示词模板打造自主代理任务

Hermes WebUI 实战：用提示词模板打造自主代理任务

1. Hermes WebUI 解决了什么问题

2. 核心思路：为什么写提示词要“给代理画路线图”

3. 完整提示词模板（可直接复制）

模板 1：信息搜集+整理（适合日报/竞品分析）

模板 2：代码生成+测试（适合自动化脚本）

模板 3：多步骤分析+决策（适合日常决策辅助）

4. 效果演示：差 Prompt vs 好 Prompt 对比

❌ 差 Prompt（纯自然语言）

✅ 好 Prompt（结构化模板）

5. 变体和注意事项

变体 1：语言切换

变体 2：限制工具使用范围

变体 3：链式任务

注意事项

6. 我的最终建议

花生博客