Speechless-llama3.2-v0.1オープンソースのテキストを意味表現に変換するモデル

Speechless Llama3.2 V0.1

homebrewltdによって開発

Speechlessはコンパクトなオープンソースのテキストからセマンティックへのモデル（10億パラメータ）で、従来のテキスト読み上げ（TTS）モデルに依存せず、オーディオを直接離散的なセマンティック表現タグに変換することを目的としています。

音声合成

Safetensors

複数言語対応オープンソースライセンス:Apache-2.0 #オーディオセマンティックタグ付け #クロスランゲージサポート #エンドツーエンド音声処理

ダウンロード数 28

リリース時間 : 12/28/2024

モデル概要

このモデルは、テキストを直接セマンティック音声タグに変換することで、トレーニングプロセスを簡素化し、リソースを節約し、特にリソースが不足している言語での拡張性を実現します。

モデル特徴

直接オーディオ変換

従来のテキスト読み上げ（TTS）モデルに依存せず、オーディオを直接離散的なセマンティック表現タグに変換します。

リソース効率

トレーニングプロセスを簡素化し、リソースを節約し、特にリソースが不足している言語に適しています。

多言語サポート

英語とベトナム語をサポートし、400時間以上の英語データと1000時間以上のベトナム語データに基づいてトレーニングされています。

モデル能力

オーディオからセマンティックタグへ

多言語処理

効率的なリソース利用

使用事例

音声処理

音声タグ生成

オーディオを直接離散的なセマンティック表現タグに変換し、後続の処理や分析に使用します。

単語誤り率はベトナム語テストセットで3.99、英語テストセットで3.27です。

🚀 Speechless

Speechlessは、コンパクトなオープンソースのテキストから意味表現へ変換するモデル（10億パラメータ）です。音声の直接的な意味表現を離散トークンとして生成するように設計されており、音声合成（TTS）モデルを必要としません。TTS → ASRのような音声の生成と処理に依存する従来のパイプラインとは異なり、Speechlessはテキストを直接意味的な音声トークンに変換することで、この複雑さを排除し、トレーニングを簡素化し、リソースを節約し、特に低リソース言語に対する拡張性を可能にします。

約400時間の英語データと約1000時間のベトナム語データでトレーニングされたSpeechlessは、Ichigo v0.5ファミリーの核心的なコンポーネントです。

詳細については、公式のブログ記事をご覧ください。

image/png

✨ 主な機能

モデル概要

開発元: Homebrew Research モデルアーキテクチャ: Llama モデルタイプ: テキストから意味表現へ 言語: 英語とベトナム語 ライセンス: Apache 2.0

リソース

ブログ: ブログ記事

🚀 クイックスタート

以下のサンプルコードを使ってモデルをロードすることができます。

import torch
from transformers import pipeline

model_id = "homebrewltd/Speechless-llama3.2-v0.1"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research")

>>> [{'generated_text': '<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research.assistant\n\n<|sound_1968|><|sound_0464|><|sound_0642|><|duration_02|><|sound_0634|><|sound_0105|><|duration_02|><|sound_1745|><|duration_02|><|sound_1345|><|sound_0210|><|sound_1312|><|sound_1312|>'}]

📚 ドキュメント

想定される使用方法

想定される使用ケース このモデルは主に研究目的で設計されています。このバージョンは、音声の直接的な意味表現を離散トークンとして生成することに焦点を当てており、音声合成（TTS）モデルを必要としません。 想定外の使用 Ichigo Whisperを適用可能な法律や規制に違反する方法で使用することは、厳格に禁止されています。

トレーニング仕様

パラメータ	値
エポック数	2
グローバルバッチサイズ	144
学習率	3e - 4
学習率スケジューラ	Cosine
オプティマイザ	AdamW
ウォームアップ比率	0.05
重み減衰	0.01
最大シーケンス長	512
勾配クリッピング	1.0

評価

ベトナム語 | モデル名 | テストデータセット | テストサンプル数 | 単語誤り率（WER） | |------------|--------------|--------------|-----| | Speechless v0.1 | viet_bud500 | 7500 | 3.99 |
英語 | モデル名 | テストデータセット | テストサンプル数 | 単語誤り率（WER） | |------------|--------------|--------------|-----| | Speechless v0.1 | librispeech_asr | 2620 | 3.27 |

引用情報

BibTeX:

@article{Speechless 2024,
  title={Speechless},
  author={Homebrew Research},
  year=2024,
  month=December},
  url={https://huggingface.co/homebrewltd/Speechless-llama3.2-v0.1}