A

Asr Conformer Largescaleasr

speechbrainによって開発
これはSpeechBrainフレームワークでトレーニングされたエンドツーエンドの自動音声認識システムで、Conformerアーキテクチャを使用して25,000時間の英語音声データでトレーニングされています。
ダウンロード数 92
リリース時間 : 2/6/2025

モデル概要

このモデルは高性能な自動音声認識システムで、ConformerエンコーダーとCTC+Transformer連合デコーダーを組み合わせ、英語音声の転写をサポートします。

モデル特徴

大規模トレーニングデータ
25,000時間のLargeScaleASRデータセットに基づいてトレーニングされ、さまざまな音声シナリオをカバーしています
効率的なアーキテクチャ
CNNとTransformerの利点を組み合わせたConformerアーキテクチャを採用し、音声認識タスクに適しています
柔軟なデコード
大ビーム幅フルデコード、貪欲デコード、アテンションのみデコードなど、複数のデコード方法をサポートします

モデル能力

英語音声認識
音声転写
音声からテキストへ

使用事例

音声転写
会議議事録
会議録音を自動的にテキスト記録に転写
検証セットWER 6.8、テストセットWER 7.5
音声メモ
音声メモを検索可能なテキストに変換
支援技術
リアルタイム字幕生成
動画やライブコンテンツのリアルタイム字幕を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase