S

S2t Medium Librispeech Asr

facebookによって開発
シーケンスツーシーケンストランスフォーマーアーキテクチャに基づく、自動音声認識(ASR)用の音声からテキストへの変換器(S2T)モデル
ダウンロード数 1,086
リリース時間 : 3/2/2022

モデル概要

このモデルはエンドツーエンドのシーケンスツーシーケンストランスフォーマーモデルで、標準的な自己回帰交差エントロピー損失を使用して学習され、音声をテキストに変換することができます。

モデル特徴

エンドツーエンド音声認識
音声特徴から直接テキストを生成し、中間処理ステップは必要ありません。
自己回帰生成
自己回帰方式を使用して、文字起こしテキストを段階的に生成します。
LibriSpeech学習
LibriSpeechデータセットで学習され、英語の音声認識に適しています。

モデル能力

音声認識
英語文字起こし
エンドツーエンド音声からテキストへの変換

使用事例

音声文字起こし
会議記録
会議の録音を自動的に文字記録に変換します。
音声メモ
音声メモを検索可能なテキストに変換します。
支援技術
リアルタイム字幕
聴覚障害者にリアルタイムの音声から文字への変換サービスを提供します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase