SpeechLLM-2Bオープンソースマルチモーダル言語モデル - 対話する話者の多重メタデータを無料で予測

ホーム

Speechllm 2B

skit-aiによって開発

SpeechLLMは、会話中の話者のターンメタデータ（音声活動、転写テキスト、話者の性別、年齢、アクセント、感情など）を予測するために訓練されたマルチモーダル大規模言語モデルです。

テキスト生成オーディオ

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチモーダル音声理解 #話者メタデータ予測 #低単語誤り率ASR

ダウンロード数 237

リリース時間 : 6/4/2024

モデル概要

HubertXオーディオエンコーダーとTinyLlama LLMを基にしたマルチモーダルモデルで、音声信号から豊富なメタデータ情報を抽出できます。

モデル特徴

マルチモーダル処理能力

音声とテキスト情報を同時に処理し、音声理解とメタデータ予測を実現

豊富なメタデータ予測

音声活動、転写テキスト、性別、年齢、アクセント、感情など様々な情報を予測可能

高性能ASR

LibriSpeechテストセットで6.73-9.13のWERを達成

モデル能力

音声活動検出

自動音声認識

話者性別分類

話者年齢分類

話者アクセント分類

話者感情認識

使用事例

音声分析

カスタマーサポート会話分析

カスタマーサポート会話中の話者特性と感情を分析

顧客の感情状態と人口統計情報を識別可能

音声転写強化

音声転写に豊富なメタデータを追加

より包括的な会話分析の次元を提供

🚀 SpeechLLM

SpeechLLMは、会話における話者の発話のメタデータを予測するように訓練されたマルチモーダル大規模言語モデル（LLM）です。speechllm - 2Bモデルは、HubertXオーディオエンコーダとTinyLlama LLMに基づいています。このモデルは以下の情報を予測します。

SpeechActivity : 音声信号に音声が含まれているかどうか (True/False)
Transcript : 音声の自動音声認識（ASR）の文字起こし
Gender : 話者の性別 (Female/Male)
Age : 話者の年齢 (Young/Middle - Age/Senior)
Accent : 話者のアクセント (Africa/America/Celtic/Europe/Oceania/South - Asia/South - East - Asia)
Emotion : 話者の感情 (Happy/Sad/Anger/Neutral/Frustrated)

🚀 クイックスタート

SpeechLLMは会話における話者の発話のメタデータを予測するマルチモーダル大規模言語モデルです。このモデルは、音声信号の解析や話者の属性予測など、多様なタスクに役立ちます。

✨ 主な機能

音声信号に音声が含まれているかどうかを判定します。
音声の文字起こしを行います。
話者の性別、年齢、アクセント、感情を予測します。

📦 インストール

このセクションでは、モデルを直接Hugging Faceからロードする方法を示します。

# Load model directly from huggingface
from transformers import AutoModel
model = AutoModel.from_pretrained("skit-ai/speechllm-2B", trust_remote_code=True)

💻 使用例

基本的な使用法

# Load model directly from huggingface
from transformers import AutoModel
model = AutoModel.from_pretrained("skit-ai/speechllm-2B", trust_remote_code=True)

model.generate_meta(
    audio_path="path-to-audio.wav", #16k Hz, mono
    audio_tensor=torchaudio.load("path-to-audio.wav")[1], # [Optional] either audio_path or audio_tensor directly
    instruction="Give me the following information about the audio [SpeechActivity, Transcript, Gender, Emotion, Age, Accent]",
    max_new_tokens=500, 
    return_special_tokens=False
)

# Model Generation
'''
{
  "SpeechActivity" : "True",
  "Transcript": "Yes, I got it. I'll make the payment now.",
  "Gender": "Female",
  "Emotion": "Neutral",
  "Age": "Young",
  "Accent" : "America",
}
'''

このコードでは、モデルをHugging Faceからロードし、音声ファイルのメタデータを生成しています。

高度な使用法

モデルをGoogle Colabで試すことができます。また、SpeechLLMに関するブログ記事も参照してください。

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Skit AI
著者	Shangeth Rajaa, Abhinav Tushar
言語	英語
ファインチューニング元のモデル	HubertX, TinyLlama
モデルサイズ	2.1 B
チェックポイント	2000 k steps (bs=1)
アダプター	r=4, alpha=8
学習率	1e - 4
勾配累積ステップ数	8

チェックポイントの結果

データセット	タイプ	単語誤り率	性別の正解率	年齢の正解率	アクセントの正解率
librispeech - test - clean	読み上げ音声	6.73	0.9496
librispeech - test - other	読み上げ音声	9.13	0.9217
CommonVoice test	多様なアクセント、年齢	25.66	0.8680	0.6041	0.6959

📄 ライセンス

このプロジェクトはApache 2.0ライセンスの下でライセンスされています。ライセンスの詳細

引用

@misc{Rajaa_SpeechLLM_Multi-Modal_LLM,
author = {Rajaa, Shangeth and Tushar, Abhinav},
title = {{SpeechLLM: Multi-Modal LLM for Speech Understanding}},
url = {https://github.com/skit-ai/SpeechLLM}
}