W

Wav2vec2 2 Bart Large Tedlium

sanchit-gandhiによって開発
TEDLIUMコーパスで訓練されたシーケンス・ツー・シーケンスの自動音声認識モデルで、Wav2Vec2音声エンコーダとBartテキストデコーダを組み合わせたもの
ダウンロード数 111
リリース時間 : 6/29/2022

モデル概要

このモデルは英語音声認識タスク用で、Wav2Vec2を音声エンコーダ、Bartをテキストデコーダとするハイブリッドアーキテクチャを採用し、TEDトークデータセットで優れた性能を発揮します

モデル特徴

ハイブリッドアーキテクチャ
Wav2Vec2音声エンコーダとBartテキストデコーダの利点を組み合わせ、効率的な音声認識を実現
高性能
TEDLIUMテストセットで6.4%の単語誤り率(WER)を達成し、優れた性能を示す
事前学習初期化
エンコーダとデコーダはそれぞれWav2Vec2 LV-60kとBart largeの事前学習済み重みで初期化

モデル能力

英語音声認識
長時間音声処理
高品質な文字起こし

使用事例

会議議事録
TEDトーク文字起こし
TEDトークの音声を自動的に文字原稿に変換
テストセット単語誤り率6.4%
教育
講義録音文字起こし
学術講義の録音を文字に変換し、ノートや字幕に利用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase