A

Assignment1 Maria

Classroom-workshopによって開発
s2t-small-librispeech-asr は自動音声認識(ASR)のための音声からテキストへの変換(S2T)モデルで、シーケンス・ツー・シーケンスのトランスフォーマーアーキテクチャに基づいています。
ダウンロード数 23
リリース時間 : 6/2/2022

モデル概要

このモデルはエンドツーエンドのシーケンス・ツー・シーケンストランスフォーマーモデルで、標準的な自己回帰交差エントロピー損失でトレーニングされ、自己回帰的に転写テキストを生成します。主に英語音声認識タスクに使用されます。

モデル特徴

エンドツーエンド音声認識
シーケンス・ツー・シーケンスアーキテクチャを採用し、音声特徴から直接テキストを生成し、中間処理ステップが不要です。
高精度
LibriSpeechテストセットで4.3(clean)と9.0(other)のWER(単語誤り率)を達成しました。
使いやすさ
シンプルなAPIインターフェースを提供し、数行のコードで音声認識機能を実現できます。

モデル能力

英語音声認識
エンドツーエンド音声テキスト変換
リアルタイム音声転写

使用事例

音声転写
会議議事録
会議録音を自動的に文字記録に転写
LibriSpeech cleanテストセットで95.7%の高精度
音声アシスタント
音声アシスタントに音声認識機能を提供
教育
講義転写
教育講義内容を自動的に文字に転写
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase