Speechless-llama3.2-v0.1開源模型 - 免TTS直接將音頻轉為語義標記

首頁

Speechless Llama3.2 V0.1

由Menlo開發

無言是一個緊湊的開源文本到語義模型（10億參數），旨在直接將音頻轉換為離散的語義標記，無需依賴傳統的文本轉語音（TTS）模型。

語音識別

Safetensors

支持多種語言開源協議:Apache-2.0 #音頻語義標記 #跨語言支持 #端到端語音處理

下載量 39

發布時間 : 12/28/2024

模型概述

無言通過直接將文本轉換為語義語音標記來消除傳統TTS→ASR流程的複雜性，簡化訓練過程，節省資源，並實現可擴展性，尤其適用於資源匱乏的語言。

模型特點

直接音頻轉語義標記

無需依賴傳統TTS模型，直接將音頻轉換為離散的語義標記。

多語言支持

支持英語和越南語，特別適合資源匱乏的語言。

高效訓練

簡化訓練流程，節省計算資源。

模型能力

音頻轉語義標記

多語言處理

高效資源利用

使用案例

語音處理

語音轉語義標記

將音頻直接轉換為語義標記，用於後續處理或分析。

詞錯誤率低至3.27（英語）和3.99（越南語）。

研究

語音模型研究

用於研究直接音頻轉語義標記的新方法。

🚀 Speechless - 無聲語音語義模型

Speechless是一個輕量級的開源文本到語義模型（擁有10億參數），旨在將音頻直接轉換為離散的語義表示，無需藉助文本轉語音（TTS）模型。與傳統的依賴音頻生成和處理（TTS → ASR）的流程不同，Speechless通過直接將文本轉換為語義語音標記，簡化了訓練過程，節省了資源，並實現了可擴展性，尤其適用於資源有限的語言。該模型在約400小時的英語數據和約1000小時的越南語數據上進行了訓練，是Ichigo v0.5系列的核心組件。

模型圖片

🚀 快速開始

你可以使用以下示例代碼來加載模型：

import torch
from transformers import pipeline

model_id = "homebrewltd/Speechless-llama3.2-v0.1"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research")

>>> [{'generated_text': '<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research.assistant\n\n<|sound_1968|><|sound_0464|><|sound_0642|><|duration_02|><|sound_0634|><|sound_0105|><|duration_02|><|sound_1745|><|duration_02|><|sound_1345|><|sound_0210|><|sound_1312|><|sound_1312|>'}]

✨ 主要特性

輕量級設計：Speechless模型參數僅10億，具有輕量級的特點，便於部署和使用。
無需TTS模型：直接將文本轉換為語義語音標記，繞過了傳統的TTS和ASR流程，簡化了訓練過程。
多語言支持：在英語和越南語數據上進行訓練，支持多語言處理，尤其適用於資源有限的語言。
可擴展性：簡化的流程和高效的設計使得模型具有良好的可擴展性。

📚 詳細文檔

模型概述

開發者：Homebrew Research
模型架構：Llama
模型類型：文本到語義
支持語言：英語和越南語
許可證：Apache 2.0

屬性	詳情
模型類型	文本到語義
支持語言	英語和越南語
許可證	Apache 2.0
開發者	Homebrew Research
模型架構	Llama

資源鏈接

博客：Blog post

預期用途

預期用例：該模型主要用於研究目的。此版本專注於將音頻直接轉換為離散的語義表示，無需使用文本轉語音（TTS）模型。
禁止用途：嚴禁以任何違反適用法律法規的方式使用Ichigo Whisper。

訓練參數

參數	值
訓練輪數	2
全局批次大小	144
學習率	3e - 4
學習率調度器	Cosine
優化器	AdamW
預熱比例	0.05
權重衰減	0.01
最大序列長度	512
梯度裁剪範數	1.0

評估結果

越南語

模型名稱	測試數據集	測試樣本數	詞錯誤率（WER）
Speechless v0.1	viet_bud500	7500	3.99

英語

模型名稱	測試數據集	測試樣本數	詞錯誤率（WER）
Speechless v0.1	librispeech_asr	2620	3.27

引用信息

BibTeX：

@article{Speechless 2024,
  title={Speechless},
  author={Homebrew Research},
  year=2024,
  month=December},
  url={https://huggingface.co/homebrewltd/Speechless-llama3.2-v0.1}