W

Wav2vec2 Base 960h

facebookによって開発
Facebookが開発したWav2Vec2の基礎モデルで、960時間のLibrispeech音声オーディオで事前学習と微調整を行い、英語の自動音声認識タスクに使用されます。
ダウンロード数 2.1M
リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識(ASR)モデルで、英語の音声をテキストに変換することができます。Librispeechデータセットで事前学習と微調整を行い、16kHzのサンプリングレートのオーディオ入力をサポートしています。

モデル特徴

効率的な音声認識
Librispeechのクリーンテストセットで3.4%の単語誤り率(WER)を達成し、優れた性能を発揮します。
有限なラベル付きデータでの高性能
たった10分のラベル付きデータと53k時間のラベルなしデータで事前学習を行っても、4.8/8.2のWERを達成できます。
16kHzサンプリングレートのサポート
モデルは16kHzのサンプリングレートのオーディオに対して最適化されており、使用時には入力オーディオがこの仕様に合致していることを確認してください。

モデル能力

英語音声認識
オーディオをテキストに変換
自動音声文字起こし

使用事例

音声文字起こし
会議記録
会議の録音を自動的に文字起こしします。
高い精度の文字起こし結果
ポッドキャスト文字起こし
英語のポッドキャスト内容を検索可能なテキストに変換します。
内容の検索と分析が容易になります
支援技術
音声入力システム
障害者に音声を文字に変換する機能を提供します。
アクセシビリティを向上させます
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase