SpeechLLM - 1.5Bオープンソースモデル、対話の話者のメタデータ（感情、アクセントなどを含む）を高精度に予測！

ホーム

Speechllm 1.5B

skit-aiによって開発

SpeechLLMは、会話中の話者のターンに関するメタデータ（音声活動、転写テキスト、性別、年齢、アクセント、感情など）を予測するためのマルチモーダル大規模言語モデルです。

テキスト生成オーディオ

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチモーダル音声理解 #話者メタデータ予測 #低リソースASR

ダウンロード数 40

リリース時間 : 6/20/2024

モデル概要

SpeechLLMはHubertXオーディオエンコーダーとTinyLlama LLMを基にしており、音声信号を処理し、豊富なメタデータ情報を生成できます。

モデル特徴

マルチモーダル処理能力

音声信号処理と言語モデルの能力を組み合わせ、音声内容を理解しメタデータを生成できます

豊富なメタデータ予測

音声活動、転写テキスト、話者の性別、年齢、アクセント、感情など、さまざまな情報を予測可能

多様なデータセットでの学習

Common Voice、LibriSpeechなど、さまざまな音声データセットで学習されており、モデルの汎化能力が向上しています

モデル能力

音声活動検出

自動音声認識

話者性別分類

話者年齢分類

話者アクセント分類

感情認識

使用事例

音声分析

カスタマーサービス会話分析

カスタマーサービス会話における話者の特徴と感情状態を分析

顧客の感情や人口統計情報を識別し、サービス品質の向上に役立ちます

音声転写の強化

音声転写に話者メタデータを追加

話者の特徴を含む、より豊富な転写テキスト情報を提供します

対話システム

インテリジェント音声アシスタント

話者の特徴を理解できる対話エージェントを構築

話者の特徴に基づいて個別化された応答を提供できます

🚀 SpeechLLM

SpeechLLMは、会話における話者の発話のメタデータを予測するように訓練されたマルチモーダルLLMです。speechllm - 2Bモデルは、HubertXオーディオエンコーダとTinyLlama LLMに基づいています。このモデルは、以下の情報を予測します。

SpeechActivity : オーディオ信号に音声が含まれているかどうか (True/False)
Transcript : オーディオのASRトランスクリプト
話者の性別 (女性/男性)
話者の年齢 (若者/中年/高齢者)
話者のアクセント (アフリカ/アメリカ/ケルト/ヨーロッパ/オセアニア/南アジア/東南アジア)
話者の感情 (幸せ/悲しみ/怒り/中立/イライラ)

🚀 クイックスタート

SpeechLLMは、会話における話者の発話のメタデータを予測するマルチモーダルLLMです。以下の手順で使用を開始できます。

✨ 主な機能

オーディオ信号に音声が含まれているかどうかの判定
オーディオのASRトランスクリプトの生成
話者の性別、年齢、アクセント、感情の予測

📦 インストール

このモデルはHugging Faceから直接ロードできます。以下のコードを実行してください。

# Load model directly from huggingface
from transformers import AutoModel
model = AutoModel.from_pretrained("skit-ai/speechllm-1.5B", trust_remote_code=True)

💻 使用例

基本的な使用法

# Load model directly from huggingface
from transformers import AutoModel
model = AutoModel.from_pretrained("skit-ai/speechllm-1.5B", trust_remote_code=True)

model.generate_meta(
    audio_path="path-to-audio.wav", #16k Hz, mono
    audio_tensor=torchaudio.load("path-to-audio.wav")[1], # [Optional] either audio_path or audio_tensor directly
    instruction="Give me the following information about the audio [SpeechActivity, Transcript, Gender, Emotion, Age, Accent]",
    max_new_tokens=500, 
    return_special_tokens=False
)

# Model Generation
'''
{
  "SpeechActivity" : "True",
  "Transcript": "Yes, I got it. I'll make the payment now.",
  "Gender": "Female",
  "Emotion": "Neutral",
  "Age": "Young",
  "Accent" : "America",
}
'''

高度な使用法

モデルをGoogle Colab Notebookで試すことができます。また、SpeechLLMに関するエンドツーエンドの対話エージェント（ユーザーの音声 -> 応答）についてのブログもチェックしてください。

📚 ドキュメント

モデルの詳細

属性	詳情
開発者	Skit AI
著者	Shangeth Rajaa, Abhinav Tushar
言語	英語
ファインチューニング元のモデル	WavLM, TinyLlama
モデルサイズ	1.5 B
チェックポイント	1200 k steps (bs=1)
アダプター	r=8, alpha=16
学習率	1e - 4
勾配累積ステップ	8

チェックポイントの結果

データセット	タイプ	単語誤り率	性別の正解率	年齢の正解率	アクセントの正解率
librispeech - test - clean	読み上げ音声	11.51	0.9594
librispeech - test - other	読み上げ音声	16.68	0.9297
CommonVoice test	多様なアクセント、年齢	26.02	0.9476	0.6498	0.8121

引用

@misc{Rajaa_SpeechLLM_Multi-Modal_LLM,
author = {Rajaa, Shangeth and Tushar, Abhinav},
title = {{SpeechLLM: Multi-Modal LLM for Speech Understanding}},
url = {https://github.com/skit-ai/SpeechLLM}
}