DiVA-llama-3-v0-8bオープンソース音声アシスタントモデル - 音声とテキスト入力に対応、実用的で無料

ホーム

Diva Llama 3 V0 8b

WillHeldによって開発

DiVA Llama 3はエンドツーエンドの音声アシスタントモデルで、音声とテキスト入力を処理でき、蒸留損失を用いてトレーニングされています。

テキスト生成オーディオ

Transformers

#エンドツーエンド音声アシスタント #マルチモーダル入力 #蒸留トレーニング

ダウンロード数 2,596

リリース時間 : 6/20/2024

モデル概要

このモデルは音声とテキスト処理能力を組み合わせたエンドツーエンド音声アシスタントで、Llama 3アーキテクチャに基づいて開発され、音声コマンドを理解して応答できます。

モデル特徴

エンドツーエンド音声アシスタント

個別の音声認識モジュールなしで直接音声入力を処理可能

蒸留トレーニング

蒸留損失を用いたトレーニングでモデル効率を向上

マルチモーダル入力

音声とテキスト入力を同時にサポート

モデル能力

音声理解

テキスト生成

マルチターン会話

スタイリッシュな応答（海賊風、ニューヨーカー風など）

使用事例

スマートアシスタント

音声インタラクションアシスタント

音声コマンドでデバイスと対話

自然な音声コマンドを理解して応答可能

多言語アプリケーション

多言語音声アシスタント

異なる言語の音声入力と応答をサポート

🚀 Diva Llama 3 のモデルカード

このモデルは、音声とテキストを入力として扱うことができるエンドツーエンドの音声アシスタントモデルです。蒸留損失を使用して学習されています。詳細はプレプリントを参照してください。

モデルの動作をdiva-audio.github.ioで確認するか、Weights&Biasesで完全な学習ログを見ることができます。

📄 ライセンス

このモデルは MPL-2.0 ライセンスの下で提供されています。

📚 引用

BibTeX:

@misc{DiVA,
      title={{D}istilling an {E}nd-to-{E}nd {V}oice {A}ssistant {W}ithout {I}nstruction {T}raining {D}ata}, 
      author={William Held and Ella Li and Michael Ryan and Weiyan Shi and Yanzhe Zhang and Diyi Yang},
      year={2024},
      eprint={2410.02678},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2410.02678}, 
}

💻 使用例

基本的な使用法

from transformers import AutoModel
import librosa
import wget

filename = wget.download(
    "https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-1008642825401516622.wav"
)

speech_data, _ = librosa.load(filename, sr=16_000)

model = AutoModel.from_pretrained("WillHeld/DiVA-llama-3-v0-8b", trust_remote_code=True)

print(model.generate([speech_data]))
print(model.generate([speech_data], ["Reply Briefly Like A Pirate"]))

filename = wget.download(
    "https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-2426554427049983479.wav"
)

speech_data2, _ = librosa.load(filename, sr=16_000)

print(
    model.generate(
        [speech_data, speech_data2],
        ["Reply Briefly Like A Pirate", "Reply Briefly Like A New Yorker"],
    )
)