A

Assignment1 Joane

Classroom-workshopによって開発
自動音声認識(ASR)のための音声からテキストへの変換(S2T)モデル
ダウンロード数 22
リリース時間 : 6/2/2022

モデル概要

このモデルはエンドツーエンドのシーケンス・ツー・シーケンストランスフォーマーモデルで、標準的な自己回帰交差エントロピー損失でトレーニングされ、自己回帰的に書き起こしテキストを生成します。

モデル特徴

エンドツーエンドモデル
音声特徴から直接テキストを生成し、中間処理ステップが不要
高精度
LibriSpeechテストセットで4.3(WER, clean)と9.0(WER, other)の優れた性能を達成
自己回帰生成
自己回帰方式で書き起こしテキストを生成し、生成品質を向上

モデル能力

英語音声認識
エンドツーエンド音声テキスト変換
リアルタイム音声書き起こし

使用事例

音声書き起こし
会議議事録
会議録音を自動的に文字記録に変換
高精度な書き起こしテキスト
音声メモ
音声メモを検索可能なテキストに変換
検索や整理が容易なテキスト内容
支援技術
聴覚支援
聴覚障害者向けにリアルタイム字幕を提供
アクセシビリティの向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase