W

Wav2vec2 Large 960h

facebookによって開発
Wav2Vec2はFacebookが開発した音声認識モデルで、自己教師あり学習により生の音声から音声表現を学習し、LibriSpeechデータセットで微調整され、高精度な音声転写を実現します。
ダウンロード数 77.59k
リリース時間 : 3/2/2022

モデル概要

このモデルは16kHzでサンプリングされた音声オーディオに基づいており、LibriSpeechの960時間のデータで事前学習と微調整が行われており、英語音声認識タスクに適しています。

モデル特徴

自己教師あり学習
生の音声から音声表現を学習することで、大量の注釈データへの依存を減らします。
高精度転写
LibriSpeechテストセットで2.8/6.3の単語誤り率(WER)を達成。
低リソース適応
限られた注釈データ下でも高性能を実現し、リソースが制限されたシナリオに適しています。

モデル能力

英語音声認識
オーディオ転写
音声処理

使用事例

音声転写
会議議事録
会議の録音を自動的にテキストに転写し、アーカイブや検索を容易にします。
高精度転写、単語誤り率は2.8まで低減。
音声アシスタント
音声アシスタントの音声認識モジュールとして使用され、インタラクション体験を向上させます。
リアルタイム音声認識をサポートし、応答速度が速い。
教育
言語学習
言語学習者が発音とリスニングを練習するのを助け、即時のフィードバックを提供します。
発音の誤りを高精度で認識し、学習効率を向上させます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase