Mandarin_naiveオープンソース中国語（普通話）音声認識モデル - 高精度な認識で音声インタラクションアプリをサポート

Mandarin Naive

GleamEyeBeastによって開発

このモデルは、facebook/wav2vec2 - xls - r - 300mをCommon Voiceデータセットでファインチューニングした中国語（普通話）音声認識モデルです。

ダウンロード数 22

リリース時間 : 3/2/2022

モデル概要

中国語（普通話）に最適化された音声認識モデルで、wav2vec2 - xls - r - 300mアーキテクチャをベースにファインチューニングされ、Common Voiceデータセットで訓練されました。

中国語（普通話）最適化

中国語（普通話）音声認識タスクに特化してファインチューニングされています。

wav2vec2アーキテクチャベース

facebookのwav2vec2 - xls - r - 300mの事前学習モデルをベースにしています。

中規模

300Mのパラメータを持つモデル規模で、性能と計算リソースの需要をバランスさせています。

中国語（普通話）音声認識

音声をテキストに変換

音声文字起こし

中国語（普通話）音声文字起こし

中国語（普通話）の音声内容をテキストに変換します。

単語誤り率(WER)0.3999

音声アシスタント

中国語（普通話）音声コマンド認識

音声アシスタントシステムのコマンド認識に使用します。

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.8963	3.67	400	1.0645	0.8783
0.5506	7.34	800	0.5032	0.5389
0.2111	11.01	1200	0.4765	0.4712
0.1336	14.68	1600	0.4815	0.4511
0.0974	18.35	2000	0.4956	0.4370
0.0748	22.02	2400	0.4881	0.4235
0.0584	25.69	2800	0.4732	0.4193
0.0458	29.36	3200	0.4584	0.3999