M

M Ctc T Large

speechbrainによって開発
Meta AIが開発した大規模多言語音声認識モデルで、60言語をサポートし、10億パラメータのTransformerエンコーダーアーキテクチャに基づいています。
ダウンロード数 88
リリース時間 : 5/27/2022

モデル概要

M-CTC-Tは多言語音声認識モデルで、音声をテキストに変換し、複数の言語をサポートするとともに、句読点や大文字小文字を保持します。

モデル特徴

多言語サポート
60言語の音声認識をサポートし、幅広い言語ニーズに対応します。
大規模トレーニングデータ
Common VoiceやLibriVoxなどのコーパスでトレーニングされており、データ量が多く多様です。
文字レベル転写
標準化されていない文字レベルの転写テキストを使用し、句読点や大文字小文字を保持します。

モデル能力

音声認識
多言語転写
文字レベルテキスト生成

使用事例

音声転写
多言語音声からテキストへ
複数言語の音声をテキストに変換し、国際的なアプリケーションシナリオに適しています。
Common Voiceテストセットでの文字誤り率(CER)は21.4-23.3
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase