🚀 Speechless
Speechless是一个轻量级的开源文本到语义模型(拥有10亿参数),旨在将音频直接转换为离散语义标记,无需借助文本转语音(TTS)模型。与传统的依赖音频生成和处理(TTS → ASR)的流程不同,Speechless通过直接将文本转换为语义语音标记,消除了这种复杂性,简化了训练过程,节省了资源,并实现了可扩展性,尤其适用于低资源语言。
该模型在约400小时的英语数据和约1000小时的越南语数据上进行训练,是Ichigo v0.5系列的核心组件。
如需了解更多详情,请查看我们的官方博客文章。

🚀 快速开始
你可以使用以下示例代码加载模型。
import torch
from transformers import pipeline
model_id = "homebrewltd/Speechless-llama3.2-v0.1"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research")
>>> [{'generated_text': '<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research.assistant\n\n<|sound_1968|><|sound_0464|><|sound_0642|><|duration_02|><|sound_0634|><|sound_0105|><|duration_02|><|sound_1745|><|duration_02|><|sound_1345|><|sound_0210|><|sound_1312|><|sound_1312|>'}]
✨ 主要特性
- 轻量级开源文本到语义模型,无需TTS模型。
- 直接将文本转换为语义语音标记,简化训练,节省资源。
- 适用于低资源语言,具有可扩展性。
- 在英语和越南语数据上进行训练。
📦 安装指南
文档未提及安装步骤,跳过该章节。
💻 使用示例
基础用法
import torch
from transformers import pipeline
model_id = "homebrewltd/Speechless-llama3.2-v0.1"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research")
>>> [{'generated_text': '<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research.assistant\n\n<|sound_1968|><|sound_0464|><|sound_0642|><|duration_02|><|sound_0634|><|sound_0105|><|duration_02|><|sound_1745|><|duration_02|><|sound_1345|><|sound_0210|><|sound_1312|><|sound_1312|>'}]
高级用法
文档未提及高级用法代码示例,跳过该部分。
📚 详细文档
模型概述
属性 |
详情 |
开发者 |
Homebrew Research |
模型架构 |
Llama |
模型类型 |
文本到语义 |
支持语言 |
英语和越南语 |
许可证 |
Apache 2.0 |
资源
预期用途
- 预期用例:此模型主要用于研究目的。该版本专注于将音频直接转换为离散语义标记,无需借助文本转语音(TTS)模型。
- 非预期用途:严禁以任何违反适用法律法规的方式使用Ichigo Whisper。
🔧 技术细节
训练规格
参数 |
值 |
训练轮数 |
2 |
全局批次大小 |
144 |
学习率 |
3e-4 |
学习率调度器 |
Cosine |
优化器 |
AdamW |
热身比例 |
0.05 |
权重衰减 |
0.01 |
最大序列长度 |
512 |
梯度裁剪范数 |
1.0 |
评估
-
越南语
| 模型名称 | 测试数据集 | 测试样本数 | 字错误率(WER) |
|------------|--------------|--------------|-----|
| Speechless v0.1 | viet_bud500 | 7500 | 3.99 |
-
英语
| 模型名称 | 测试数据集 | 测试样本数 | 字错误率(WER) |
|------------|--------------|--------------|-----|
| Speechless v0.1 | librispeech_asr | 2620 | 3.27 |
📄 许可证
本模型使用Apache 2.0许可证。
致谢
引用信息
BibTeX
@article{Speechless 2024,
title={Speechless},
author={Homebrew Research},
year=2024,
month=December},
url={https://huggingface.co/homebrewltd/Speechless-llama3.2-v0.1}