W

Wav2vec2 Large 960h Lv60 Self

facebookによって開発
Facebookが開発したWav2Vec2の大規模モデルで、960時間のLibri-LightとLibrispeechの音声データを基に事前学習と微調整を行い、自己学習目標を採用し、LibriSpeechテストセットでSOTAの結果を達成しました。
ダウンロード数 56.00k
リリース時間 : 3/2/2022

モデル概要

自動音声認識(ASR)に使用する事前学習モデルで、自己教師付き学習により生のオーディオから音声表現を学習し、微調整を通じて高精度な音声からテキストへの変換を実現します。

モデル特徴

自己教師付き事前学習
対比学習目標を通じて潜在空間で音声表現を学習し、ラベル付きデータへの依存を減らします。
高精度認識
LibriSpeechテストセットで1.9/3.9 WER(clean/other)のSOTAの結果を達成しました。
低リソース適応
少量のラベル付きデータでも微調整が可能で、1時間のラベル付きデータでも従来の方法を上回ります。

モデル能力

英語音声認識
16kHzオーディオ処理
エンドツーエンドの音声からテキストへの変換

使用事例

音声書き起こし
会議記録の自動化
英語の会議録音を自動的に文字記録に変換します。
高い正確率での書き起こしが可能で、人手による記録コストを削減します。
ポッドキャスト字幕生成
英語のポッドキャスト内容に自動的に字幕を生成します。
バッチ処理に対応し、正確率は96%以上です。
支援技術
聴覚障害者支援
音声をリアルタイムで文字に変換し、聴覚障害者が読めるようにします。
低遅延でのリアルタイム変換が可能です。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase