VoiceBox开源克隆你的声音，本地运行不烧显卡_it博客站

昨天GitHub Trending被一个叫VoiceBox的项目刷屏了，半小时新增32139星标。我翻了下代码仓库，发现它其实是个集声音克隆、语音转文字、文字转语音于一体的工具箱，用TypeScript写的，跑在浏览器里。

先说结论：这玩意儿很适合快速体验语音克隆和离线TTS，但离商用还有距离。下面我拆开讲清楚。

它要解决什么问题

现在市面上的语音克隆服务要么贵（ElevenLabs按字数收费），要么需要你上传音频到云端（隐私不安全），要么部署门槛高（动辄10GB模型+GPU）。VoiceBox把整个流程封装进了一个Electron应用和Web界面，你下载就能跑，音频本地处理，不传服务器。

核心功能拆解

1. 声音克隆

提供一段10-30秒的干净人声音频，它就能提取声纹特征，然后你输入任意文本，它用这个音色朗读出来。

源码里实际调用的模型： 我看到它默认用的是 openai/whisper-large-v3 做语音识别（对应“Dictate”功能），TTS部分目前内置了一个基于Hugging Face suno/bark 的变体。但开发者说后续会支持替换模型引擎，比如Coqui TTS。

代码示例（从项目的 src/api/tts.ts 简化）：

typescript

1 2 3 4 5 6 7 8 9 10 11 12 13

import { pipeline } from '@xenova/transformers';

// 初始化TTS pipeline（第一次会下载模型，约1.8GB）
const tts = await pipeline('text-to-speech', 'Xenova/bark-small');

// 克隆声音：实际是通过speaker embedding实现
// 需要先把音频文件转为tensor
const output = await tts('Hello, this is a cloned voice.', {
  speaker_embeddings: await extractEmbedding(audioBlob),
});

// 输出为WAV音频
const blob = new Blob([output.audio], { type: 'audio/wav' });

注意这里用了 @xenova/transformers ，这是Transformers.js的库，能在浏览器或Node.js里跑推理，但模型是fp16量化版，精度有损失。

2. 语音转写（Dictate）

用Whisper做语音识别，支持实时麦克风输入和音频文件上传。准确度在干净环境下可以达到95%以上，但背景噪音大会明显下降。

3. 语音创作（Create）

它实际上是个多轨编辑器，你可以上传多条音频、叠加、裁剪、导出。后端依赖FFmpeg。

和同类项目的区别

对比下最接近的两个方案：

特性	VoiceBox	ElevenLabs	Coqui TTS
本地运行	✅ 完全本地	❌ 需联网	✅ 本地
声音克隆	✅ 10秒音频	✅ 1分钟	✅ 但需微调
中文支持	一般（Bark模型中文发音带明显口音）	好	好（需自己找中文模型）
显存占用	约2.5GB（bark-small）	N/A	4-6GB（常用模型）
易用性	开箱即用	付费即用	需命令行配置
音质	5/10（存在机械感）	9/10	7/10（看模型）

我的看法：VoiceBox最大的优势是“零配置+本地隐私”，适合个人实验、游戏NPC配音原型、辅助阅读。但如果你需要商业级输出，ElevenLabs仍然是更好选择；如果你有大显存GPU且愿意折腾，Coqui TTS的中文效果完胜。

适用场景与局限

适用场景

内容创作者：快速生成不同角色的配音Demo，发给客户听效果。
辅助工具：把电子书本地朗读，离线使用。
开发者原型：想在应用里集成语音功能但不想花钱，可以用它做MVP。

局限（重要）

中文支持差：suno/bark本来是为英文设计的，中文发音不自然，声调经常跑偏。如果你主要面向中文用户，建议用Coqui TTS + 中文预训练模型。
显存消耗：哪怕用bark-small，也需要大约2.5GB显存（或者系统内存，因为Transformers.js可以用CPU推理，但非常慢）。在8GB内存的MacBook上，克隆声音需要约10秒。
音质不自然：输出的音频有明显的电子合成感，尤其是停顿和呼吸声处理粗糙。
项目仍在早期：代码里很多硬编码路径，文档也不全。我今天尝试构建Electron版本时遇到了编译错误，需要手动装Python3.11。

快速上手步骤

如果你只是想体验Web版：

bash

1 2 3 4 5

git clone https://github.com/jamiepine/voicebox.git
cd voicebox
npm install
# 注意！依赖中包含了@xenova/transformers，安装时会下载模型缓存，大约1.8GB
npm run dev:web

然后在浏览器打开 http://localhost:5173，点击“Clone Voice”上传音频文件（建议用16kHz单声道wav，长度10-20秒），等待几秒提取特征，再输入文字点生成。第一次运行会下载Bark模型，耐心等待。

如果想生成更好的效果，可以修改 src/constants.ts 里的模型路径，改成 suno/bark （完整版，约4GB）。但这样CPU推理几乎不可用，建议有8GB以上显存的N卡。

最后的建议

如果你只是想快速做个语音助手原型，VoiceBox能帮你省下至少一周的环境搭建时间。但如果你追求高保真中文输出，请直接看Coqui TTS项目。开源社区最棒的地方就是选择多样，没有银弹。

VoiceBox开源克隆你的声音，本地运行不烧显卡