W

Wav2vec2 Base 100h

facebookによって開発
Wav2Vec2基礎版は、16kHzサンプリングのLibrispeech音声オーディオで100時間の事前学習と微調整を行った自動音声認識モデルです。
ダウンロード数 4,380
リリース時間 : 3/2/2022

モデル概要

このモデルは、音声オーディオから強力な表現を学習し、微調整することで、効率的な音声認識機能を実現し、特にラベル付きデータが限られたシナリオに適しています。

モデル特徴

効率的な音声表現学習
潜在空間マスク処理と量子化対比タスクを通じて、強力な音声表現を学習します。
低ラベル付きデータ要件
限られたラベル付きデータでも高性能を実現し、1時間のラベル付きデータで以前の100時間サブセットの最先端技術を上回ります。
高い正確性
Librispeechテストセットで1.8/3.3の単語誤り率(WER)を達成します。

モデル能力

音声認識
オーディオテキスト変換
英語音声処理

使用事例

音声文字起こし
会議記録自動生成
会議録音を自動的に文字記録に変換します。
クリーンテストセットで単語誤り率6.1%
音声アシスタント
音声アシスタントの音声認識モジュールに使用します。
他のテストセットで単語誤り率13.5%
教育
言語学習アプリ
言語学習者の発音と聴力の練習を支援します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase