A

Asr Streaming Conformer Librispeech

speechbrainによって開発
これはLibriSpeechデータセットで事前学習されたエンドツーエンドの自動音声認識システムで、ストリーミングと非ストリーミングモードをサポートし、英語音声認識に適しています。
ダウンロード数 304
リリース時間 : 2/15/2024

モデル概要

このモデルはコンフォーマーアーキテクチャとRNN-T損失を使用してトレーニングされ、ストリーミング文字起こしを実現するためのダイナミックブロックトレーニングをサポートし、LibriSpeechテストセットで優れた性能を発揮します。

モデル特徴

ストリーミングと非ストリーミングサポート
ダイナミックブロックトレーニングをサポートし、異なるブロックサイズで動作可能で、遅延と精度のバランスを取ります
高性能認識
LibriSpeechテストクリーンセットで2.72%の単語誤り率を達成
ダイナミックブロック畳み込み
ダイナミックブロック畳み込み技術を実装し、ストリーミングと非ストリーミング処理を統一

モデル能力

英語音声認識
リアルタイムストリーミング文字起こし
オフライン音声ファイル文字起こし

使用事例

音声からテキストへ
リアルタイム会議記録
会議や講義の内容をリアルタイムで文字起こし
960msブロックサイズで3.13%の単語誤り率を達成
音声ファイル文字起こし
録音済みの英語音声ファイルをテキストに変換
フルコンテキストモードで2.72%の単語誤り率を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase