从零训练LLM:一个可复现的入门实践
本文拆解GitHub热门项目train-llm-from-scratch,用TinyShakespeare数据训练12层GPT-2小模型。给出完整代码、超参数选择依据和3个常见避坑指南,读完能独立跑通并理解每一步为什么这样做。
本文拆解GitHub热门项目train-llm-from-scratch,用TinyShakespeare数据训练12层GPT-2小模型。给出完整代码、超参数选择依据和3个常见避坑指南,读完能独立跑通并理解每一步为什么这样做。
sjxi.cn