S

S2t Small Librispeech Asr

facebookによって開発
自動音声認識(ASR)のための音声からテキストへの変換(S2T)モデルで、シーケンス・ツー・シーケンス変換アーキテクチャに基づいています
ダウンロード数 10.92k
リリース時間 : 3/2/2022

モデル概要

このモデルはエンドツーエンドの音声認識モデルで、標準的な自己回帰交差エントロピー損失を使用して訓練されており、音声をテキストに変換できます

モデル特徴

エンドツーエンド音声認識
中間処理ステップなしで、音声入力から直接テキスト出力を生成します
変換器アーキテクチャベース
先進的なシーケンス・ツー・シーケンス変換器モデルアーキテクチャを採用しています
高精度
LibriSpeechテストセットで優れた性能を発揮し、cleanテストセットのWERは4.3、otherテストセットのWERは9.0です

モデル能力

英語音声認識
エンドツーエンド音声からテキストへの変換
長い音声処理

使用事例

音声文字起こし
音声コンテンツの文字起こし
英語の音声コンテンツをテキスト形式に変換します
高精度な文字起こし結果
支援技術
リアルタイム字幕生成
英語の動画やライブ配信のためにリアルタイムで字幕を生成します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase