wav2vec2-xls-r-300m-cs-cv8オープンソース音声認識モデル

ホーム

Wav2vec2 Xls R 300m Cs Cv8

comodoroによって開発

facebook/wav2vec2-xls-r-300mをベースにCommon Voice 8.0チェコ語データセットでファインチューニングした音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #チェコ語音声認識 #XLSRファインチューニング #低CER

ダウンロード数 13

リリース時間 : 3/2/2022

モデル概要

このモデルはチェコ語に最適化された自動音声認識(ASR)モデルで、Wav2Vec2アーキテクチャを基に、Common Voice 8.0データセットでファインチューニングされており、16kHzサンプリングレートの音声入力をサポートします。

モデル特徴

高性能チェコ語認識

Common Voice 8.0テストセットで10.3%のWERと2.6%のCERを達成

XLSRアーキテクチャ採用

facebookのwav2vec2-xls-r-300mをベースモデルとして使用し、強力なクロスリンガル表現能力を有する

言語モデル不要

追加の言語モデルサポートなしで直接使用可能

モデル能力

チェコ語音声認識

16kHz音声処理

エンドツーエンド音声テキスト変換

使用事例

音声文字起こし

音声メモのテキスト化

チェコ語の音声メモを編集可能なテキストに変換

高精度なテキスト出力

音声アシスタント

チェコ語音声アシスタントアプリケーション向け音声認識コンポーネント

低遅延の音声理解

音声分析

音声コンテンツ分析

チェコ語音声コンテンツを分析しキー情報を抽出

後続の自然言語処理タスクをサポート

🚀 wav2vec2-xls-r-300m-cs-cv8

このモデルは、facebook/wav2vec2-xls-r-300m をCommon Voice 8.0データセットでファインチューニングしたバージョンです。学習中の評価セットで以下の結果を達成しています。

損失: 0.2327
単語誤り率 (WER): 0.1608
文字誤り率 (CER): 0.0376

eval.py スクリプトを使用した言語モデルの結果は以下の通りです。 WER: 0.10281503199350225 CER: 0.02622802241689026

✨ 主な機能

このモデルは、自動音声認識タスクに特化しており、コモドーロ社によって開発されたモデルです。モデルは、Common Voice 8.0データセットを使用してファインチューニングされており、チェコ語の音声認識に適しています。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、必要なライブラリをインストールできます。

pip install transformers datasets torchaudio

💻 使用例

基本的な使用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("mozilla-foundation/common_voice_8_0", "cs", split="test[:2%]")

processor = Wav2Vec2Processor.from_pretrained("comodoro/wav2vec2-xls-r-300m-cs-cv8")
model = Wav2Vec2ForCTC.from_pretrained("comodoro/wav2vec2-xls-r-300m-cs-cv8")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# データセットの前処理
# 音声ファイルを配列として読み込む必要があります
def speech_file_to_array_fn(batch):
	speech_array, sampling_rate = torchaudio.load(batch["path"])
	batch["speech"] = resampler(speech_array).squeeze().numpy()
	return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset[:2]["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
	logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("予測結果:", processor.batch_decode(predicted_ids))
print("参照結果:", test_dataset[:2]["sentence"])

📚 ドキュメント

評価

モデルは、添付の eval.py スクリプトを使用して評価できます。

python eval.py --model_id comodoro/wav2vec2-xls-r-300m-cs-cv8 --dataset mozilla-foundation/common-voice_8_0 --split test --config cs

学習と評価データ

学習には、Common Voice 8.0の train と validation データセットが使用されました。

学習手順

学習ハイパーパラメータ

学習の最初の段階では、以下のハイパーパラメータが使用されました。

学習率: 7e-05
学習バッチサイズ: 32
評価バッチサイズ: 8
シード: 42
勾配累積ステップ: 20
総学習バッチサイズ: 640
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ: 500
エポック数: 150
混合精度学習: Native AMP

学習の2段階目では、以下のハイパーパラメータが使用されました。

学習率: 0.001
学習バッチサイズ: 32
評価バッチサイズ: 8
シード: 42
勾配累積ステップ: 20
総学習バッチサイズ: 640
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ: 500
エポック数: 50
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (WER)	文字誤り率 (CER)
7.2926	8.06	250	3.8497	1.0	1.0
3.417	16.13	500	3.2852	1.0	0.9857
2.0264	24.19	750	0.7099	0.7342	0.1768
0.4018	32.25	1000	0.6188	0.6415	0.1551
0.2444	40.32	1250	0.6632	0.6362	0.1600
0.1882	48.38	1500	0.6070	0.5783	0.1388
0.153	56.44	1750	0.6425	0.5720	0.1377
0.1214	64.51	2000	0.6363	0.5546	0.1337
0.1011	72.57	2250	0.6310	0.5222	0.1224
0.0879	80.63	2500	0.6353	0.5258	0.1253
0.0782	88.7	2750	0.6078	0.4904	0.1127
0.0709	96.76	3000	0.6465	0.4960	0.1154
0.0661	104.82	3250	0.6622	0.4945	0.1166
0.0616	112.89	3500	0.6440	0.4786	0.1104
0.0579	120.95	3750	0.6815	0.4887	0.1144
0.0549	129.03	4000	0.6603	0.4780	0.1105
0.0527	137.09	4250	0.6652	0.4749	0.1090
0.0506	145.16	4500	0.6958	0.4846	0.1133

少し異なるアーキテクチャとより高い学習率でのさらなるファインチューニング:

学習損失	エポック	ステップ	検証損失	単語誤り率 (WER)	文字誤り率 (CER)
0.576	8.06	250	0.2411	0.2340	0.0502
0.2564	16.13	500	0.2305	0.2097	0.0492
0.2018	24.19	750	0.2371	0.2059	0.0494
0.1549	32.25	1000	0.2298	0.1844	0.0435
0.1224	40.32	1250	0.2288	0.1725	0.0407
0.1004	48.38	1500	0.2327	0.1608	0.0376