Speechless-llama3.2-v0.1開源文本轉語義模型 - 免TTS直接將音頻轉語義標記

首頁

Speechless Llama3.2 V0.1

由homebrewltd開發

Speechless是一款緊湊的開源文本轉語義模型（10億參數），旨在直接將音頻轉換為離散的語義表徵標記，無需依賴傳統的文本轉語音（TTS）模型。

語音合成

Safetensors

支持多種語言開源協議:Apache-2.0 #音頻語義標記 #跨語言支持 #端到端語音處理

下載量 28

發布時間 : 12/28/2024

模型概述

該模型通過直接將文本轉換為語義語音標記，簡化了訓練流程，節省了資源，並實現了可擴展性，尤其適用於資源匱乏的語言。

模型特點

直接音頻轉換

無需依賴傳統的文本轉語音（TTS）模型，直接將音頻轉換為離散的語義表徵標記。

資源高效

簡化了訓練流程，節省了資源，尤其適用於資源匱乏的語言。

多語言支持

支持英文和越南文，基於超過400小時的英文和1000小時的越南語數據訓練。

模型能力

音頻轉語義標記

多語言處理

高效資源利用

使用案例

語音處理

語音標記生成

將音頻直接轉換為離散的語義表徵標記，用於後續處理或分析。

詞錯誤率在越南文測試集上為3.99，在英文測試集上為3.27。

🚀 Speechless

Speechless是一個輕量級的開源文本到語義模型（擁有10億參數），旨在將音頻直接轉換為離散語義標記，無需藉助文本轉語音（TTS）模型。與傳統的依賴音頻生成和處理（TTS → ASR）的流程不同，Speechless通過直接將文本轉換為語義語音標記，消除了這種複雜性，簡化了訓練過程，節省了資源，並實現了可擴展性，尤其適用於低資源語言。

該模型在約400小時的英語數據和約1000小時的越南語數據上進行訓練，是Ichigo v0.5系列的核心組件。

如需瞭解更多詳情，請查看我們的官方博客文章。

image/png

🚀 快速開始

你可以使用以下示例代碼加載模型。

import torch
from transformers import pipeline

model_id = "homebrewltd/Speechless-llama3.2-v0.1"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research")

>>> [{'generated_text': '<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research.assistant\n\n<|sound_1968|><|sound_0464|><|sound_0642|><|duration_02|><|sound_0634|><|sound_0105|><|duration_02|><|sound_1745|><|duration_02|><|sound_1345|><|sound_0210|><|sound_1312|><|sound_1312|>'}]

✨ 主要特性

輕量級開源文本到語義模型，無需TTS模型。
直接將文本轉換為語義語音標記，簡化訓練，節省資源。
適用於低資源語言，具有可擴展性。
在英語和越南語數據上進行訓練。

📦 安裝指南

文檔未提及安裝步驟，跳過該章節。

💻 使用示例

基礎用法

import torch
from transformers import pipeline

model_id = "homebrewltd/Speechless-llama3.2-v0.1"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research")

>>> [{'generated_text': '<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research.assistant\n\n<|sound_1968|><|sound_0464|><|sound_0642|><|duration_02|><|sound_0634|><|sound_0105|><|duration_02|><|sound_1745|><|duration_02|><|sound_1345|><|sound_0210|><|sound_1312|><|sound_1312|>'}]

高級用法

文檔未提及高級用法代碼示例，跳過該部分。

📚 詳細文檔

模型概述

屬性	詳情
開發者	Homebrew Research
模型架構	Llama
模型類型	文本到語義
支持語言	英語和越南語
許可證	Apache 2.0

資源

博客：Blog post

預期用途

預期用例：此模型主要用於研究目的。該版本專注於將音頻直接轉換為離散語義標記，無需藉助文本轉語音（TTS）模型。
非預期用途：嚴禁以任何違反適用法律法規的方式使用Ichigo Whisper。

🔧 技術細節

訓練規格

參數	值
訓練輪數	2
全局批次大小	144
學習率	3e-4
學習率調度器	Cosine
優化器	AdamW
熱身比例	0.05
權重衰減	0.01
最大序列長度	512
梯度裁剪範數	1.0

評估

越南語 | 模型名稱 | 測試數據集 | 測試樣本數 | 字錯誤率（WER） | |------------|--------------|--------------|-----| | Speechless v0.1 | viet_bud500 | 7500 | 3.99 |
英語 | 模型名稱 | 測試數據集 | 測試樣本數 | 字錯誤率（WER） | |------------|--------------|--------------|-----| | Speechless v0.1 | librispeech_asr | 2620 | 3.27 |

📄 許可證

本模型使用Apache 2.0許可證。

致謝

WhisperSpeech
Llama3.2

引用信息

BibTeX

@article{Speechless 2024,
  title={Speechless},
  author={Homebrew Research},
  year=2024,
  month=December},
  url={https://huggingface.co/homebrewltd/Speechless-llama3.2-v0.1}