🚀 Speechless - 無聲語音語義模型
Speechless是一個輕量級的開源文本到語義模型(擁有10億參數),旨在將音頻直接轉換為離散的語義表示,無需藉助文本轉語音(TTS)模型。與傳統的依賴音頻生成和處理(TTS → ASR)的流程不同,Speechless通過直接將文本轉換為語義語音標記,簡化了訓練過程,節省了資源,並實現了可擴展性,尤其適用於資源有限的語言。該模型在約400小時的英語數據和約1000小時的越南語數據上進行了訓練,是Ichigo v0.5系列的核心組件。

🚀 快速開始
你可以使用以下示例代碼來加載模型:
import torch
from transformers import pipeline
model_id = "homebrewltd/Speechless-llama3.2-v0.1"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research")
>>> [{'generated_text': '<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research.assistant\n\n<|sound_1968|><|sound_0464|><|sound_0642|><|duration_02|><|sound_0634|><|sound_0105|><|duration_02|><|sound_1745|><|duration_02|><|sound_1345|><|sound_0210|><|sound_1312|><|sound_1312|>'}]
✨ 主要特性
- 輕量級設計:Speechless模型參數僅10億,具有輕量級的特點,便於部署和使用。
- 無需TTS模型:直接將文本轉換為語義語音標記,繞過了傳統的TTS和ASR流程,簡化了訓練過程。
- 多語言支持:在英語和越南語數據上進行訓練,支持多語言處理,尤其適用於資源有限的語言。
- 可擴展性:簡化的流程和高效的設計使得模型具有良好的可擴展性。
📚 詳細文檔
模型概述
- 開發者:Homebrew Research
- 模型架構:Llama
- 模型類型:文本到語義
- 支持語言:英語和越南語
- 許可證:Apache 2.0
屬性 |
詳情 |
模型類型 |
文本到語義 |
支持語言 |
英語和越南語 |
許可證 |
Apache 2.0 |
開發者 |
Homebrew Research |
模型架構 |
Llama |
資源鏈接
預期用途
- 預期用例:該模型主要用於研究目的。此版本專注於將音頻直接轉換為離散的語義表示,無需使用文本轉語音(TTS)模型。
- 禁止用途:嚴禁以任何違反適用法律法規的方式使用Ichigo Whisper。
訓練參數
參數 |
值 |
訓練輪數 |
2 |
全局批次大小 |
144 |
學習率 |
3e - 4 |
學習率調度器 |
Cosine |
優化器 |
AdamW |
預熱比例 |
0.05 |
權重衰減 |
0.01 |
最大序列長度 |
512 |
梯度裁剪範數 |
1.0 |
評估結果
越南語
模型名稱 |
測試數據集 |
測試樣本數 |
詞錯誤率(WER) |
Speechless v0.1 |
viet_bud500 |
7500 |
3.99 |
英語
模型名稱 |
測試數據集 |
測試樣本數 |
詞錯誤率(WER) |
Speechless v0.1 |
librispeech_asr |
2620 |
3.27 |
引用信息
BibTeX:
@article{Speechless 2024,
title={Speechless},
author={Homebrew Research},
year=2024,
month=December},
url={https://huggingface.co/homebrewltd/Speechless-llama3.2-v0.1}
致謝
如需更多詳細信息,請查看我們的官方博客文章。