wav2vec2-xls-r-300m-mixedオープンソース音声認識モデル - マレー語、シンガポール式英語、北京語に対応

ホーム

Wav2vec2 Xls R 300m Mixed

mesoliticaによって開発

Facebookのwav2vec2-xls-r-300mモデルを混合言語データセットでファインチューニングした音声認識モデルで、マレー語、シングリッシュ、標準中国語をサポートします。

音声認識

Transformers

#多言語音声認識 #混合言語ファインチューニング #低CER/WER

ダウンロード数 10.07k

リリース時間 : 6/1/2022

モデル概要

このモデルは3つの言語（マレー語、シングリッシュ、標準中国語）に特化してファインチューニングされた音声認識モデルで、多言語音声テキスト変換タスクに適しています。

モデル特徴

多言語サポート

マレー語、シングリッシュ、標準中国語の3言語の音声認識をサポートします。

高性能

評価データセットで優れた性能を発揮し、文字誤り率(CER)と単語誤り率(WER)が共に低いです。

言語モデル拡張

外部言語モデルと組み合わせることで認識精度をさらに向上できます。

モデル能力

音声認識

多言語処理

音声テキスト変換

使用事例

音声書き起こし

多言語会議議事録

マレー語、シングリッシュ、標準中国語が混在する会議内容を記録するために使用します。

混合言語会議内容を正確に書き起こす

カスタマーサポート会話分析

多言語カスタマーサポート会話内容を分析します。

カスタマーサポート品質分析の効率向上

教育

言語学習支援

学習者が発音の正確さを練習・評価するのを支援します。

即時の発音フィードバックを提供

🚀 wav2vec2-xls-r-300m-mixed

このモデルは、https://huggingface.co/facebook/wav2vec2-xls-r-300m を https://github.com/huseinzol05/malaya-speech/tree/master/data/mixed-stt のデータでファインチューニングしたものです。3つの言語、すなわちマレー語、シンガリッシュ語、中国語（北京語）でファインチューニングされています。

このモデルは、https://mesolitica.com/ が提供する単一のRTX 3090 Ti 24GB VRAMでトレーニングされました。

🚀 クイックスタート

このモデルは、特定の音声データセットでファインチューニングされており、音声認識タスクに使用できます。以下に評価セットとその結果について説明します。

📚 ドキュメント

評価セット

評価セットは https://github.com/huseinzol05/malaya-speech/tree/master/pretrained-model/prepare-stt から取得され、そのサイズは以下の通りです。

len(malay), len(singlish), len(mandarin)
-> (765, 3579, 614)

評価結果

evaluate-gpu.ipynb に基づく評価セットでの結果は以下の通りです。

混合評価

CER: 0.0481054244857041
WER: 0.1322198446007387
CER with LM: 0.041196586938584696
WER with LM: 0.09880169127621556

マレー語評価

CER: 0.051636391937588406
WER: 0.19561999547293663
CER with LM: 0.03917689630621449
WER with LM: 0.12710746406824835

シンガリッシュ語評価

CER: 0.0494915200071987
WER: 0.12763802881676573
CER with LM: 0.04271234986432335
WER with LM: 0.09677160640413336

中国語（北京語）評価

CER: 0.035626554824269824
WER: 0.07993515937860181
CER with LM: 0.03487760945087219
WER with LM: 0.07536807168546154

言語モデル

使用された言語モデルは https://huggingface.co/huseinzol05/language-model-bahasa-manglish-combined から取得されました。

プロパティ	詳細
モデルタイプ	wav2vec2-xls-r-300m-mixed
トレーニングデータ	https://github.com/huseinzol05/malaya-speech/tree/master/data/mixed-stt のデータ