🚀 Speechless - 无声语音语义模型
Speechless是一个轻量级的开源文本到语义模型(拥有10亿参数),旨在将音频直接转换为离散的语义表示,无需借助文本转语音(TTS)模型。与传统的依赖音频生成和处理(TTS → ASR)的流程不同,Speechless通过直接将文本转换为语义语音标记,简化了训练过程,节省了资源,并实现了可扩展性,尤其适用于资源有限的语言。该模型在约400小时的英语数据和约1000小时的越南语数据上进行了训练,是Ichigo v0.5系列的核心组件。

🚀 快速开始
你可以使用以下示例代码来加载模型:
import torch
from transformers import pipeline
model_id = "homebrewltd/Speechless-llama3.2-v0.1"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research")
>>> [{'generated_text': '<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research.assistant\n\n<|sound_1968|><|sound_0464|><|sound_0642|><|duration_02|><|sound_0634|><|sound_0105|><|duration_02|><|sound_1745|><|duration_02|><|sound_1345|><|sound_0210|><|sound_1312|><|sound_1312|>'}]
✨ 主要特性
- 轻量级设计:Speechless模型参数仅10亿,具有轻量级的特点,便于部署和使用。
- 无需TTS模型:直接将文本转换为语义语音标记,绕过了传统的TTS和ASR流程,简化了训练过程。
- 多语言支持:在英语和越南语数据上进行训练,支持多语言处理,尤其适用于资源有限的语言。
- 可扩展性:简化的流程和高效的设计使得模型具有良好的可扩展性。
📚 详细文档
模型概述
- 开发者:Homebrew Research
- 模型架构:Llama
- 模型类型:文本到语义
- 支持语言:英语和越南语
- 许可证:Apache 2.0
属性 |
详情 |
模型类型 |
文本到语义 |
支持语言 |
英语和越南语 |
许可证 |
Apache 2.0 |
开发者 |
Homebrew Research |
模型架构 |
Llama |
资源链接
预期用途
- 预期用例:该模型主要用于研究目的。此版本专注于将音频直接转换为离散的语义表示,无需使用文本转语音(TTS)模型。
- 禁止用途:严禁以任何违反适用法律法规的方式使用Ichigo Whisper。
训练参数
参数 |
值 |
训练轮数 |
2 |
全局批次大小 |
144 |
学习率 |
3e - 4 |
学习率调度器 |
Cosine |
优化器 |
AdamW |
预热比例 |
0.05 |
权重衰减 |
0.01 |
最大序列长度 |
512 |
梯度裁剪范数 |
1.0 |
评估结果
越南语
模型名称 |
测试数据集 |
测试样本数 |
词错误率(WER) |
Speechless v0.1 |
viet_bud500 |
7500 |
3.99 |
英语
模型名称 |
测试数据集 |
测试样本数 |
词错误率(WER) |
Speechless v0.1 |
librispeech_asr |
2620 |
3.27 |
引用信息
BibTeX:
@article{Speechless 2024,
title={Speechless},
author={Homebrew Research},
year=2024,
month=December},
url={https://huggingface.co/homebrewltd/Speechless-llama3.2-v0.1}
致谢
如需更多详细信息,请查看我们的官方博客文章。