A

Asr Streaming Conformer Gigaspeech

speechbrainによって開発
GigaSpeechデータセットで事前学習された英語の自動音声認識モデルで、ストリーミングと非ストリーミングの文字起こしをサポートします。
ダウンロード数 66
リリース時間 : 11/6/2024

モデル概要

これはConformerアーキテクチャとRNN-T損失を使用してトレーニングされたエンドツーエンドの自動音声認識システムで、動的チャンクトレーニングをサポートしてストリーミング文字起こし機能を実現します。

モデル特徴

ストリーミングサポート
動的チャンクトレーニングをサポートし、異なるチャンクサイズでストリーミング文字起こしが可能です。
高性能
GigaSpeechテストセットで11.00%の単語誤り率(非ストリーミングモード)を達成しました。
柔軟な設定
必要に応じて遅延と精度の間でトレードオフを調整できます。
多様なシーンに適用可能
オフライン文字起こしとリアルタイムストリーミング文字起こしの2つのモードをサポートします。

モデル能力

英語音声認識
リアルタイムストリーミング文字起こし
オフラインバッチ文字起こし
動的チャンク処理

使用事例

音声文字起こし
リアルタイム音声を文字に変換
リアルタイム会議記録やライブ配信の字幕生成に使用します。
960msのチャンクサイズで11.53%の単語誤り率を達成しました。
音声ファイルの文字起こし
音声ファイルを一括で文字に変換します。
非ストリーミングモードで11.00%の単語誤り率を達成しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase