W

Wav2vec2 Large 960h Lv60

facebookによって開発
Wav2Vec2は強力な音声認識モデルで、自己教師あり学習により生の音声から特徴を抽出し、限られたラベル付きデータで高性能な音声認識を実現します。
ダウンロード数 7,011
リリース時間 : 3/2/2022

モデル概要

このモデルは960時間のLibri-LightおよびLibrispeech音声データで事前トレーニングとファインチューニングが行われており、英語の自動音声認識タスクに特化しており、16kHzサンプリングレートの音声入力をサポートしています。

モデル特徴

自己教師あり学習
生の音声から表現を学習することで、大量のラベル付きデータへの依存を軽減します。
高性能
Librispeechのクリーンテストセットで2.2%のWERを達成し、優れた性能を発揮します。
データ効率
少量のラベル付きデータで高性能なモデルをファインチューニング可能で、リソースが限られた環境に適しています。

モデル能力

英語音声認識
16kHz音声処理
高精度文字起こし

使用事例

音声文字起こし
会議議事録
会議の録音を自動的に文字起こし
高精度の文字起こしテキスト
字幕生成
動画コンテンツに英語字幕を生成
迅速かつ正確な自動字幕
音声アシスタント
音声コマンド認識
ユーザーの音声コマンドを認識・理解
高精度のコマンド認識
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase