🚀 Speechless
Speechless是一個輕量級的開源文本到語義模型(擁有10億參數),旨在將音頻直接轉換為離散語義標記,無需藉助文本轉語音(TTS)模型。與傳統的依賴音頻生成和處理(TTS → ASR)的流程不同,Speechless通過直接將文本轉換為語義語音標記,消除了這種複雜性,簡化了訓練過程,節省了資源,並實現了可擴展性,尤其適用於低資源語言。
該模型在約400小時的英語數據和約1000小時的越南語數據上進行訓練,是Ichigo v0.5系列的核心組件。
如需瞭解更多詳情,請查看我們的官方博客文章。

🚀 快速開始
你可以使用以下示例代碼加載模型。
import torch
from transformers import pipeline
model_id = "homebrewltd/Speechless-llama3.2-v0.1"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research")
>>> [{'generated_text': '<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research.assistant\n\n<|sound_1968|><|sound_0464|><|sound_0642|><|duration_02|><|sound_0634|><|sound_0105|><|duration_02|><|sound_1745|><|duration_02|><|sound_1345|><|sound_0210|><|sound_1312|><|sound_1312|>'}]
✨ 主要特性
- 輕量級開源文本到語義模型,無需TTS模型。
- 直接將文本轉換為語義語音標記,簡化訓練,節省資源。
- 適用於低資源語言,具有可擴展性。
- 在英語和越南語數據上進行訓練。
📦 安裝指南
文檔未提及安裝步驟,跳過該章節。
💻 使用示例
基礎用法
import torch
from transformers import pipeline
model_id = "homebrewltd/Speechless-llama3.2-v0.1"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research")
>>> [{'generated_text': '<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research.assistant\n\n<|sound_1968|><|sound_0464|><|sound_0642|><|duration_02|><|sound_0634|><|sound_0105|><|duration_02|><|sound_1745|><|duration_02|><|sound_1345|><|sound_0210|><|sound_1312|><|sound_1312|>'}]
高級用法
文檔未提及高級用法代碼示例,跳過該部分。
📚 詳細文檔
模型概述
屬性 |
詳情 |
開發者 |
Homebrew Research |
模型架構 |
Llama |
模型類型 |
文本到語義 |
支持語言 |
英語和越南語 |
許可證 |
Apache 2.0 |
資源
預期用途
- 預期用例:此模型主要用於研究目的。該版本專注於將音頻直接轉換為離散語義標記,無需藉助文本轉語音(TTS)模型。
- 非預期用途:嚴禁以任何違反適用法律法規的方式使用Ichigo Whisper。
🔧 技術細節
訓練規格
參數 |
值 |
訓練輪數 |
2 |
全局批次大小 |
144 |
學習率 |
3e-4 |
學習率調度器 |
Cosine |
優化器 |
AdamW |
熱身比例 |
0.05 |
權重衰減 |
0.01 |
最大序列長度 |
512 |
梯度裁剪範數 |
1.0 |
評估
-
越南語
| 模型名稱 | 測試數據集 | 測試樣本數 | 字錯誤率(WER) |
|------------|--------------|--------------|-----|
| Speechless v0.1 | viet_bud500 | 7500 | 3.99 |
-
英語
| 模型名稱 | 測試數據集 | 測試樣本數 | 字錯誤率(WER) |
|------------|--------------|--------------|-----|
| Speechless v0.1 | librispeech_asr | 2620 | 3.27 |
📄 許可證
本模型使用Apache 2.0許可證。
致謝
引用信息
BibTeX
@article{Speechless 2024,
title={Speechless},
author={Homebrew Research},
year=2024,
month=December},
url={https://huggingface.co/homebrewltd/Speechless-llama3.2-v0.1}