搜索 "LLM" - 花生个人博客

找到 355 篇结果

顾承安 · 1个月前文章

LMCache 实测：KV Cache 缓存让 LLM 推理快 3 倍

本文基于 LMCache 开源项目，实测 KV Cache 缓存层在长上下文和多轮对话场景下，首 token 延迟降低 60%，吞吐量提升 2.8 倍。对比 vLLM Prefix Cache，给出选型建议和配置参数。

178 0 0

顾承安 · 1个月前文章

从零搭建本地语音 AI 助手：Open-LLM-VTuber 技术选型与调优实录

本文拆解 Open-LLM-VTuber 项目的语音识别、LLM 对话、语音合成、Live2D 渲染全流程，对比主流 STT/TTS/LLM 模型性能，给出低延迟配置方案和常见坑解决，读完可直接上手搭建。

177 0 0

从零搭建本地语音 AI 助手：Open-LLM-VTuber 技术选型与调优实录

顾承安 · 1个月前文章

Headroom：用LLM自压缩减少60-95% Token，实测能保住答案质量吗？

本文解析Headroom项目的核心原理：利用低成本LLM对工具输出、日志、文档块进行智能压缩，减少60-95%输入Token，并给出实测准确率对比、适用场景和避坑指南。

172 0 0

Headroom：用LLM自压缩减少60-95% Token，实测能保住答案质量吗？

顾承安 · 1个月前文章

本地语音虚拟助手：Open-LLM-VTuber 搭建与调优

本文基于 Open-LLM-VTuber 项目，拆解其语音交互架构（ASR+LLM+TTS+Live2D），给出模型选型（Whisper 大小、LLM 量化级别）对延迟和准确率的影响，并提供一套可复现的调优方案，帮你避开常见坑。

171 0 0

陈思远 · 1个月前文章

用Headroom给LLM输入瘦身，省60-95%token

实测Headroom工具：通过智能压缩将LLM输入的token量降低60-95%而不影响回答质量。对比LLMLingua，分析原理、适用场景和局限，给出RAG和日志处理的最佳实践代码。

149 0 0

陈思远 · 1个月前文章

用Headroom给LLM减负：压缩90% token而不丢答案

本文评测Headroom项目，分析其基于重要性评分的压缩原理，实测对RAG和日志场景的token节省效果与答案质量，并与LLMLingua对比，给出适用场景和避坑指南。

127 0 0

陈思远 · 1个月前文章

PaddleOCR实测：用OCR为LLM准备结构化数据

本文从开发者视角实测PaddleOCR，给出其在ICDAR2015、CTW1500等基准上的精度与速度数据，并与Tesseract、EasyOCR横向对比。重点分析如何将OCR输出接入LLM RAG流程，包括倾斜文本、表格、多语言的实战坑点和优化建议。

123 0 0

陈思远 · 1个月前文章

用Headroom压缩LLM输入Token，节省60-95%成本且不损准确率

本文实测Headroom工具库，展示如何将LLM输入（日志、文件、RAG块）压缩60-95% token，同时保证答案一致性超过95%。包含API调用示例、与LLMLingua的对比表、适用场景分析，帮你快速决定是否接入。

117 0 0

叶清远 · 2个月前文章

用LLM+API复刻Expedia旅行助手：自然语言订票工程实现

本文解析Expedia最新AI体验的技术架构，并手把手搭建一个可运行的自然语言旅行预订Demo：基于LLM函数调用解析用户意图，对接航班/酒店API，管理多轮对话状态，以及上线必须处理的价格一致性和延迟问题。

108 0 0

顾承安 · 1个月前文章

LMCache实测：KV缓存让LLM推理提速3倍

本文拆解LMCache的架构、缓存策略与集成方法，对比vLLM原生Prefix Caching，给出实测延迟与吞吐数据，并指出磁盘IO瓶颈等坑，帮你判断自己的场景是否值得上缓存。

104 0 0

唐墨白 · 1个月前文章

Karpathy的LLM陷阱清单：用CLAUDE.md减少代码返工

本文解析 Andrej Karpathy 总结的 LLM 编码 6 大陷阱，并展示如何通过一份 CLAUDE.md 配置让 Claude Code 自动规避这些问题。读者将获得可直接复用的配置文件模板、落地注意事项，以及让代码生成从「能跑」到「好用」的实战方法。

102 0 0

顾承安 · 1个月前文章

LLM审查移除工具Hereitic实测：方法、效果与风险

本文拆解Hereitic自动去除LLM审查的原理（用反提示词+微调语料），给出实测成功率（80%+）、延迟与成本数据，横向对比手动Prompt注入。结论：仅建议研究或闭源环境使用，生产部署风险极高。

100 0 0

陆景然 · 1个月前文章

让LLM记住长任务：Superpowers框架的上下文切分术

本文基于GitHub热榜项目Superpowers的Agentic Skills方法论，剖析LLM在长任务中失忆的根本原因，给出可直接复用的技能分解Prompt模板，通过差/好对比和实验数据说明如何将上下文压缩30%以上、任务完成率提升至92%，并总结适用边界。

95 0 0

活动线报侠 · 5个月前文章

【iOS限免】PillMate

PillMate 药物追踪应用内购限免中，原价¥68现免费，支持记录服药时间、剂量、提醒及照片管理，时效性强。

85 0 0

刘博文 · 1个月前文章

从零训练LLM：一个可复现的入门实践

本文拆解GitHub热门项目train-llm-from-scratch，用TinyShakespeare数据训练12层GPT-2小模型。给出完整代码、超参数选择依据和3个常见避坑指南，读完能独立跑通并理解每一步为什么这样做。

81 0 0

LMCache 实测：KV Cache 缓存让 LLM 推理快 3 倍

从零搭建本地语音 AI 助手：Open-LLM-VTuber 技术选型与调优实录

Headroom：用LLM自压缩减少60-95% Token，实测能保住答案质量吗？

本地语音虚拟助手：Open-LLM-VTuber 搭建与调优

用Headroom给LLM输入瘦身，省60-95%token

用Headroom给LLM减负：压缩90% token而不丢答案

PaddleOCR实测：用OCR为LLM准备结构化数据

用Headroom压缩LLM输入Token，节省60-95%成本且不损准确率

用LLM+API复刻Expedia旅行助手：自然语言订票工程实现

LMCache实测：KV缓存让LLM推理提速3倍

Karpathy的LLM陷阱清单：用CLAUDE.md减少代码返工

LLM审查移除工具Hereitic实测：方法、效果与风险

让LLM记住长任务：Superpowers框架的上下文切分术

【iOS限免】PillMate

从零训练LLM：一个可复现的入门实践

花生博客