wav2vec2-xls-r-300m-cs-250オープンソース音声認識モデル - チェコ語の音声入力認識をサポート

ホーム

Wav2vec2 Xls R 300m Cs 250

comodoroによって開発

これはfacebook/wav2vec2-xls-r-300mをチェコ語データセットでファインチューニングした自動音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #チェコ語音声認識 #低単語誤り率 #複数データセット訓練

ダウンロード数 248.66k

リリース時間 : 3/2/2022

モデル概要

このモデルはチェコ語向けの自動音声認識モデルで、Common Voice 8.0などのデータセットでファインチューニングされており、直接使用可能または言語モデルと組み合わせて使用できます。

モデル特徴

複数データセット訓練

Common Voice 8.0、OVM、PSCR、Vystadial2016など複数のチェコ語データセットを使用して訓練

高性能

Common Voice 8.0テストセットで7.3%の単語誤り率と2.1%の文字誤り率を達成

直接使用

言語モデル不要で直接音声認識可能

モデル能力

チェコ語音声認識

16kHzサンプリングレート音声処理

言語モデル不要の直接推論

使用事例

音声文字起こし

音声からテキストへ

チェコ語音声内容をテキストに変換

単語誤り率7.3%、文字誤り率2.1%

音声分析

音声内容分析

チェコ語音声内容を分析

🚀 チェコ語 wav2vec2-xls-r-300m-cs-250

このモデルは、facebook/wav2vec2-xls-r-300m を Common Voice 8.0 データセットや以下に挙げる他のデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.1271
単語誤り率 (Wer): 0.1475
文字誤り率 (Cer): 0.0329

eval.py スクリプトを使用した結果は以下の通りです。

単語誤り率 (Wer): 0.07274312090176113
文字誤り率 (Cer): 0.021207369275558875

✨ 主な機能

モデルの説明

facebook/wav2vec2-large-xlsr-53 を Common Voice データセットを用いてチェコ語でファインチューニングしたモデルです。このモデルを使用する際は、音声入力が16kHzでサンプリングされていることを確認してください。

使用例

基本的な使用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("mozilla-foundation/common_voice_8_0", "cs", split="test[:2%]")

processor = Wav2Vec2Processor.from_pretrained("comodoro/wav2vec2-xls-r-300m-cs-250")
model = Wav2Vec2ForCTC.from_pretrained("comodoro/wav2vec2-xls-r-300m-cs-250")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# データセットの前処理
# 音声ファイルを配列として読み込む必要があります
def speech_file_to_array_fn(batch):
	speech_array, sampling_rate = torchaudio.load(batch["path"])
	batch["speech"] = resampler(speech_array).squeeze().numpy()
	return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset[:2]["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
	logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset[:2]["sentence"])

評価

このモデルは、添付の eval.py スクリプトを使用して評価できます。

python eval.py --model_id comodoro/wav2vec2-xls-r-300m-cs-250 --dataset mozilla-foundation/common-voice_8_0 --split test --config cs

訓練と評価データ

訓練には Common Voice 8.0 の train と validation データセット、および以下のデータセットが使用されました。

Šmídl, Luboš and Pražák, Aleš, 2013, OVM – Otázky Václava Moravce, LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University, http://hdl.handle.net/11858/00-097C-0000-000D-EC98-3.
Pražák, Aleš and Šmídl, Luboš, 2012, Czech Parliament Meetings, LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University, http://hdl.handle.net/11858/00-097C-0000-0005-CF9C-4.
Plátek, Ondřej; Dušek, Ondřej and Jurčíček, Filip, 2016, Vystadial 2016 – Czech data, LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University, http://hdl.handle.net/11234/1-1740.

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

学習率: 0.0001
訓練バッチサイズ: 32
評価バッチサイズ: 8
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ: 800
エポック数: 5
混合精度訓練: Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
3.4203	0.16	800	3.3148	1.0	1.0
2.8151	0.32	1600	0.8508	0.8938	0.2345
0.9411	0.48	2400	0.3335	0.3723	0.0847
0.7408	0.64	3200	0.2573	0.2840	0.0642
0.6516	0.8	4000	0.2365	0.2581	0.0595
0.6242	0.96	4800	0.2039	0.2433	0.0541
0.5754	1.12	5600	0.1832	0.2156	0.0482
0.5626	1.28	6400	0.1827	0.2091	0.0463
0.5342	1.44	7200	0.1744	0.2033	0.0468
0.4965	1.6	8000	0.1705	0.1963	0.0444
0.5047	1.76	8800	0.1604	0.1889	0.0422
0.4814	1.92	9600	0.1604	0.1827	0.0411
0.4471	2.09	10400	0.1566	0.1822	0.0406
0.4509	2.25	11200	0.1619	0.1853	0.0432
0.4415	2.41	12000	0.1513	0.1764	0.0397
0.4313	2.57	12800	0.1515	0.1739	0.0392
0.4163	2.73	13600	0.1445	0.1695	0.0377
0.4142	2.89	14400	0.1478	0.1699	0.0385
0.4184	3.05	15200	0.1430	0.1669	0.0376
0.3886	3.21	16000	0.1433	0.1644	0.0374
0.3795	3.37	16800	0.1426	0.1648	0.0373
0.3859	3.53	17600	0.1357	0.1604	0.0361
0.3762	3.69	18400	0.1344	0.1558	0.0349
0.384	3.85	19200	0.1379	0.1576	0.0359
0.3762	4.01	20000	0.1344	0.1539	0.0346
0.3559	4.17	20800	0.1339	0.1525	0.0351
0.3683	4.33	21600	0.1315	0.1518	0.0342
0.3572	4.49	22400	0.1307	0.1507	0.0342
0.3494	4.65	23200	0.1294	0.1491	0.0335
0.3476	4.81	24000	0.1287	0.1491	0.0336
0.3475	4.97	24800	0.1271	0.1475	0.0329

フレームワークのバージョン

Transformers 4.16.2
Pytorch 1.10.1+cu102
Datasets 1.18.3
Tokenizers 0.11.0

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

📚 ドキュメント

モデル情報

属性	詳情
モデルタイプ	自動音声認識 (Automatic Speech Recognition)
訓練データ	mozilla-foundation/common_voice_8_0、ovm、pscr、vystadial2016
ベースモデル	facebook/wav2vec2-xls-r-300m

モデルの評価結果

タスク: 自動音声認識 (Automatic Speech Recognition)
データセット:
- Common Voice 8 (mozilla-foundation/common_voice_8_0, cs)
  - 単語誤り率 (Wer): 7.3
  - 文字誤り率 (Cer): 2.1
- Robust Speech Event - Dev Data (speech-recognition-community-v2/dev_data, cs)
  - 単語誤り率 (Wer): 43.44
- Robust Speech Event - Test Data (speech-recognition-community-v2/eval_data, cs)
  - 単語誤り率 (Wer): 38.5