A

Asr Transformer Aishell

speechbrainによって開発
SpeechBrainフレームワークに基づいて事前学習されたAISHELL(中国語(普通話))エンドツーエンド自動音声認識システムで、Transformerエンコーダ+結合デコーダ構造を採用しています。
ダウンロード数 76
リリース時間 : 3/2/2022

モデル概要

これは中国語(普通話)の自動音声認識に使用されるTransformerモデルで、AISHELLデータセットを基に訓練され、中国語の音声をテキストに変換することができます。

モデル特徴

結合デコードメカニズム
CTCとTransformerデコーダを組み合わせ、デコード過程でCTC確率スコアを融合し、認識精度を向上させます。
サブワード単位の形態素解析
unigramアルゴリズムに基づく形態素解析器を使用し、単語をサブワード単位に変換し、モデルの語彙汎化能力を向上させます。
自動音声処理
組み込みの音声標準化処理を備え、自動リサンプリングとモノラル選択を含み、使用プロセスを簡素化します。

モデル能力

中国語(普通話)音声認識
音声文字起こし
バッチ音声処理

使用事例

音声文字起こし
中国語会議記録
中国語の会議録音を自動的に文字記録に変換します。
テストセットの文字誤り率(CER)は6.04%です。
音声入力システム
中国語アプリに音声入力機能を提供します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase