从零训练LLM：一个可复现的入门实践

本文拆解GitHub热门项目train-llm-from-scratch，用TinyShakespeare数据训练12层GPT-2小模型。给出完整代码、超参数选择依据和3个常见避坑指南，读完能独立跑通并理解每一步为什么这样做。

花生博客

sjxi.cn