wav2vec2-2-bart-baseオープンソース音声認識モデル - 無料でデプロイし、音声内容を高精度に認識

ホーム

Wav2vec2 2 Bart Base

patrickvonplatenによって開発

LibriSpeech ASR cleanデータセットでファインチューニングされたwav2vec2-baseとbart-baseに基づく音声認識モデル

音声認識

Transformers

#音声からテキストへ #マルチGPUトレーニング #低い単語誤り率

ダウンロード数 493

リリース時間 : 3/2/2022

モデル概要

このモデルはwav2vec2の音声特徴抽出能力とBARTのシーケンス・ツー・シーケンス変換能力を組み合わせ、英語音声認識タスクに特化しています

モデル特徴

ハイブリッドアーキテクチャ

wav2vec2の音声特徴抽出とBARTのシーケンス変換能力を統合

効率的なファインチューニング

LibriSpeech ASR cleanデータセットで最適化

マルチGPUトレーニング

分散トレーニングをサポートし、トレーニング効率を向上

モデル能力

英語音声認識

オーディオからテキストへ

シーケンス・ツー・シーケンス変換

使用事例

音声文字起こし

会議議事録

会議録音を文字記録に変換

ポッドキャスト文字起こし

ポッドキャスト音声コンテンツをテキストに変換

支援技術

リアルタイム字幕生成

動画やライブ配信のためのリアルタイム字幕を生成

🚀 wav2vec2-2-bart-base

このモデルは、自動音声認識（Automatic Speech Recognition）に特化したモデルです。facebook/wav2vec2-base と bart-base を librispeech_asr - clean データセットでファインチューニングしたもので、評価セットで良好な結果を達成しています。

🚀 クイックスタート

この実験を再実行するには、このディレクトリをクローンして以下のコマンドを実行してください。

モデル作成

python create_model.py

実行

./run_librispeech.sh

✨ 主な機能

自動音声認識：音声データをテキストに変換することができます。
ファインチューニング済み：librispeech_asr - clean データセットでファインチューニングされており、高精度な認識結果を提供します。

📦 インストール

上記のクイックスタートセクションに記載されているコマンドを実行することで、モデルを再実行するための環境をセットアップできます。

📚 ドキュメント

評価結果

このモデルは評価セットで以下の結果を達成しています。

損失 (Loss): 0.405
単語誤り率 (Wer): 0.0728

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

属性	详情
学習率 (learning_rate)	0.0003
トレーニングバッチサイズ (train_batch_size)	8
評価バッチサイズ (eval_batch_size)	8
シード (seed)	42
分散タイプ (distributed_type)	multi - GPU
デバイス数 (num_devices)	8
総トレーニングバッチサイズ (total_train_batch_size)	64
総評価バッチサイズ (total_eval_batch_size)	64
オプティマイザ (optimizer)	Adam with betas=(0.9,0.999) and epsilon=1e - 08
学習率スケジューラタイプ (lr_scheduler_type)	linear
学習率スケジューラウォームアップステップ (lr_scheduler_warmup_steps)	400
エポック数 (num_epochs)	5
混合精度トレーニング (mixed_precision_training)	Native AMP