wav2vec2 - 2 - bart - largeオープンソース自動音声認識モデル - 無料でデプロイし、高精度な音声をテキストに変換

Wav2vec2 2 Bart Large

patrickvonplatenによって開発

このモデルは、wav2vec2-large-lv60とbart-largeをベースに、librispeech_asr - cleanデータセットで微調整された自動音声認識（ASR）モデルです。

ダウンロード数 31

リリース時間 : 3/2/2022

モデル概要

wav2vec2とbartのアーキテクチャを組み合わせた音声認識モデルで、英語の音声をテキストに変換するタスクに最適化されています。

混合アーキテクチャ

wav2vec2の音声特徴抽出能力とbartのシーケンス生成能力を組み合わせています。

高い正確率

LibriSpeech評価セットで4.86％の単語誤り率（WER）を達成しました。

複数GPUによる訓練

分散訓練をサポートし、モデルの訓練プロセスを高速化できます。

英語の音声認識

音声をテキストに変換

大規模な音声データの処理

音声文字起こし

オーディオブックの文字起こし

英語のオーディオブックの内容をテキストに変換します。

高い正確率での文字起こし結果

会議記録

英語の会議内容を自動的に記録します。

音声アシスタント

音声命令の認識

英語の音声命令を認識し理解します。