S

Speechllm 2B

skit-aiによって開発
SpeechLLMは、会話中の話者のターンメタデータ(音声活動、転写テキスト、話者の性別、年齢、アクセント、感情など)を予測するために訓練されたマルチモーダル大規模言語モデルです。
ダウンロード数 237
リリース時間 : 6/4/2024

モデル概要

HubertXオーディオエンコーダーとTinyLlama LLMを基にしたマルチモーダルモデルで、音声信号から豊富なメタデータ情報を抽出できます。

モデル特徴

マルチモーダル処理能力
音声とテキスト情報を同時に処理し、音声理解とメタデータ予測を実現
豊富なメタデータ予測
音声活動、転写テキスト、性別、年齢、アクセント、感情など様々な情報を予測可能
高性能ASR
LibriSpeechテストセットで6.73-9.13のWERを達成

モデル能力

音声活動検出
自動音声認識
話者性別分類
話者年齢分類
話者アクセント分類
話者感情認識

使用事例

音声分析
カスタマーサポート会話分析
カスタマーサポート会話中の話者特性と感情を分析
顧客の感情状態と人口統計情報を識別可能
音声転写強化
音声転写に豊富なメタデータを追加
より包括的な会話分析の次元を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase