W

Wav2vec2 Conformer Rope Large 960h Ft

facebookによって開発
このモデルは回転位置埋め込み技術を統合し、16kHzサンプリングの音声オーディオに基づき、960時間のLibriSpeechデータで事前学習と微調整が行われ、英語音声認識タスクに適しています。
ダウンロード数 22.02k
リリース時間 : 4/18/2022

モデル概要

Wav2Vec2 Conformerモデルは回転位置埋め込み技術を組み合わせ、高精度な英語音声認識に特化し、16kHzサンプリングレートの音声入力をサポートします。

モデル特徴

回転位置埋め込み技術
回転位置埋め込み(RoPE)技術を採用し、モデルの長いシーケンス音声処理能力を向上させました。
大規模トレーニングデータ
960時間のLibriSpeech音声データに基づいて事前学習と微調整を行いました。
高精度認識
LibriSpeechテストセットで1.96(Clean)と3.98(Other)の単語誤り率(WER)を達成しました。

モデル能力

英語音声認識
16kHzオーディオ処理
長いシーケンス音声転写

使用事例

音声転写
会議議事録の転写
会議録音を自動的に文字記録に変換
高精度な転写結果
音声メモ変換
音声メモを編集可能なテキストに変換
音声アシスタント
音声コマンド認識
ユーザーの音声コマンドを認識し理解する
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase