W

Wav2vec2 Large 10min Lv60 Self

Splend1dchanによって開発
このモデルはWav2Vec2アーキテクチャに基づく大規模音声認識モデルで、Libri-LightとLibrispeechの10分間データで事前学習と微調整が行われ、自己学習目標を使用してトレーニングされました。16kHzサンプリングレートの音声オーディオに適しています。
ダウンロード数 177
リリース時間 : 4/12/2022

モデル概要

Wav2Vec2 2.0は自動音声認識(ASR)モデルで、生の音声オーディオから強力な表現を学習し、音声を転写することで微調整を行うことで、限られた注釈データ下での効率的な音声認識を実現しました。

モデル特徴

自己学習目標
モデルは自己学習目標を使用してトレーニングされ、限られた注釈データ下での性能が向上しました。
低リソース音声認識
10分間の注釈データと53k時間の無注釈データのみを使用して事前学習を行い、良好な音声認識効果を実現しました。
潜在空間マスキング
潜在空間で音声入力をマスキングし、対照タスクを通じて潜在表現の量子化問題を解決します。

モデル能力

音声認識
音声処理
自動音声テキスト変換

使用事例

音声転写
会議議事録
会議録音を自動的にテキスト記録に転写
音声メモ
音声メモを検索可能なテキストに変換
支援技術
聴覚支援
聴覚障害者向けにリアルタイム音声テキスト変換サービスを提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase