S

Stt Zh Citrinet 1024 Gamma 0 25

nvidiaによって開発
これは中国語普通話の自動音声認識(ASR)用の非自己回帰Citrinetモデルで、約1.4億のパラメータを持ち、文字エンコーディングスキームとCTC損失/デコードを採用しています。
ダウンロード数 92
リリース時間 : 6/28/2022

モデル概要

このモデルは中国語普通話の音声認識のために設計され、Aishell-2データセットでトレーニングされ、16kHzモノラルオーディオをテキストに変換できます。

モデル特徴

非自己回帰アーキテクチャ
Citrinetの非自己回帰アーキテクチャを採用し、TransducerではなくCTC損失/デコードを使用して効率的な音声認識を実現
文字レベルエンコーディング
Aishell-2が提供する標準文字セットを使用した文字レベルエンコーディングで、中国語音声認識に適している
プロダクションレベルデプロイ
NVIDIA Rivaと互換性があり、プロダクションレベルのサーバーデプロイに使用可能
多様なシナリオ適応
iOS、Android、マイクなど様々な録音環境で安定した性能を発揮

モデル能力

中国語音声認識
リアルタイム音声テキスト変換
16kHzモノラルオーディオ入力対応

使用事例

音声書き起こし
会議議事録
中国語会議録音を自動的に文字記録に変換
AIShell-2テストセットでCER5.1-5.5%
音声アシスタント
中国語音声アシスタントに音声認識機能を提供
音声分析
カスタマーサービス録音分析
中国語カスタマーサービス通話内容を自動分析
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase