wav2vec2-xl-960h-dementiabankオープンソース音声認識モデル - 無料で効率的な音声からテキストへの変換を実現

Wav2vec2 Xl 960h Dementiabank

shieldsによって開発

このモデルはfacebook/wav2vec2-large-960hをDementiaBankデータセットでファインチューニングした音声認識モデルで、主に音声からテキストへの変換タスクに使用されます。

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

これはwav2vec2アーキテクチャに基づく音声認識モデルで、ファインチューニングにより特に認知症患者の音声認識シナリオに適している可能性があります。

高精度音声認識

wav2vec2-xlアーキテクチャに基づき、高品質な音声からテキストへの変換能力を提供

特定領域ファインチューニング

DementiaBankデータセットでファインチューニングされており、認知症患者の音声特徴の認識に適している可能性があります

事前学習基盤

facebook/wav2vec2-large-960h事前学習モデルに基づいており、強力な音声理解能力を有しています

英語音声認識

音声からテキストへ

特定集団音声認識

医療健康

認知症患者音声分析

認知症患者の音声特徴を識別・分析するために使用

音声文字起こし

医療面談記録

医師と患者の会話を自動的に文字に変換

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
13934.5266	0.31	10	71265.4531	1.0
13443.6406	0.62	20	69977.6016	1.0
9336.9562	0.94	30	13763.1484	0.9843
2970.977	1.25	40	17587.7656	0.9860
1916.3354	1.56	50	4328.4521	1.0
1417.5775	1.88	60	4486.8071	0.9860
1841.7689	2.19	70	2988.0303	1.0
1355.0265	2.5	80	2972.6094	0.9860
1359.7979	2.81	90	3483.2146	0.9860