A

Asr Wav2vec2 Transformer Aishell

speechbrainによって開発
これはAISHELLデータセットとwav2vec2事前学習に基づくTransformer自動音声認識モデルで、中国語(普通話)の音声認識タスクに特化しています。
ダウンロード数 99
リリース時間 : 3/2/2022

モデル概要

このモデルはエンドツーエンドの自動音声認識システムで、wav2vec2エンコーダとCTC+Transformerの連合デコーダを組み合わせており、中国語(普通話)の音声文字起こしに適しています。

モデル特徴

エンドツーエンド音声認識
音声入力からテキスト出力までの完全なエンドツーエンドソリューションを提供します。
wav2vec2事前学習
wav2vec2の強力な特徴抽出能力を利用して認識精度を向上させます。
CTC+Transformer連合デコード
CTC確率とTransformerデコーダを組み合わせて、認識結果を向上させます。
16kHz音声対応
16kHzサンプリングレートのモノラル音声入力を自動的に処理します。

モデル能力

中国語(普通話)音声認識
音声文字起こし
自動音声認識

使用事例

音声文字起こし
中国語(普通話)音声を文字に変換
中国語(普通話)の音声内容を文字に変換します。
テストセットのCERは5.58%です。
音声アシスタント
中国語音声コマンド認識
中国語音声アシスタントの音声コマンド認識に使用します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase