S

Stt Fr Fastconformer Hybrid Large Pc

nvidiaによって開発
これはフランス語自動音声認識モデルで、FastConformerアーキテクチャに基づき、TransducerとCTCデコーダを組み合わせており、高い精度とマルチドメイン適応性を備えています。
ダウンロード数 1,331
リリース時間 : 5/23/2023

モデル概要

このモデルは、大文字小文字のフランス語アルファベット、スペース、ピリオド、カンマ、疑問符を含む音声を文字起こしできます。FastConformer Transducer-CTCモデルの'大型'バージョンで、約1.15億パラメータです。

モデル特徴

ハイブリッド訓練
TransducerとCTCの2つの損失関数を組み合わせて訓練し、モデルの頑健性を向上
最適化アーキテクチャ
FastConformerアーキテクチャを採用し、8倍の深さ分離可能畳み込みダウンサンプリングで効率化
マルチデータセット訓練
1800時間のフランス語音声データ(MCV12、MLS、Voxpopuliデータセット含む)で訓練
句読点対応
ピリオド、カンマ、疑問符を含むテキストの文字起こしをサポート

モデル能力

フランス語音声認識
句読点認識
大文字小文字認識
長音声処理

使用事例

音声文字起こし
会議議事録
フランス語会議録音を文字記録に変換
WER 7.92 (MCV12テストセット)
音声字幕
フランス語動画コンテンツの字幕生成
WER 5.21 (MLSテストセット)
音声分析
音声データ分析
フランス語音声データのキーワードと内容分析
WER 6.49 (VoxPopuliテストセット)
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase