W

Wav2vec2 Conformer Rel Pos Large 960h Ft

facebookによって開発
16kHzサンプリング音声オーディオに基づくWav2Vec2-Conformerモデルで、相対位置埋め込み技術を採用し、960時間のLibrispeechデータで事前学習と微調整を行った
ダウンロード数 1,038
リリース時間 : 4/18/2022

モデル概要

これは自動音声認識(ASR)のためのConformerアーキテクチャモデルで、英語音声の転写をサポートし、高精度と低単語誤り率(WER)を実現

モデル特徴

相対位置埋め込み
相対位置埋め込み技術を採用し、音声シーケンスの位置関係モデリング能力を向上
高精度
LibriSpeechテストセットで1.85(clean)と3.83(other)の単語誤り率(WER)を達成
大規模トレーニング
960時間のLibriSpeech音声データに基づく事前学習と微調整

モデル能力

英語音声認識
16kHzオーディオ処理
長シーケンス音声転写

使用事例

音声転写
会議議事録
会議録音を自動的にテキストに転写
高精度な転写テキスト
音声ノート変換
音声ノートを編集可能なテキストに変換
支援技術
リアルタイム字幕生成
動画やライブコンテンツのリアルタイム字幕生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase