wav2vec2-large-xls-r-300m-asオープンソース自動音声認識モデル

ホーム

Wav2vec2 Large Xls R 300m As

anuragshasによって開発

Facebookのwav2vec2-xls-r-300mモデルをCommon Voice 7アッサム語(AS)データセットでファインチューニングした自動音声認識(ASR)モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #アッサム語音声認識 #多方言ロバスト性 #低リソース言語処理

ダウンロード数 19

リリース時間 : 3/2/2022

モデル概要

このモデルはアッサム語の自動音声認識システムで、アッサム語の音声をテキストに変換できます

モデル特徴

多言語サポート

Facebookの多言語wav2vec2-xls-rモデルを基にしており、アッサム語を含む複数言語をサポート

効率的なトレーニング

勾配蓄積などの技術を使用してトレーニングプロセスを最適化し、限られたリソースで効率的なトレーニングを実現

ロバスト性

Common Voiceデータセットでトレーニングされており、ある程度の音声変動に対するロバスト性を有する

モデル能力

アッサム語音声認識

音声からテキストへの変換

16kHzサンプリングレートの音声処理をサポート

使用事例

音声文字起こし

アッサム語音声文字起こし

アッサム語の音声内容をテキストに変換

単語誤り率56.995%(言語モデル使用)

音声アシスタント

アッサム語音声コマンド認識

アッサム語の音声コマンドを理解するために使用

🚀 wav2vec2-large-xls-r-300m-as

このモデルは、common_voiceデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 1.9068
単語誤り率 (Wer): 0.6679

🚀 クイックスタート

このモデルは自動音声認識タスクに使用できます。以下のコードや手順を参考にしてください。

✨ 主な機能

コモンボイスデータセットでファインチューニングされた自動音声認識モデル。
評価セットで一定の精度を達成。

📦 インストール

このモデルを使用するためには、必要なライブラリをインストールする必要があります。以下のコマンドを使用してください。

pip install transformers datasets torch torchaudio

💻 使用例

基本的な使用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-as"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "as", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
# => "জাহাজত তো তিশকুৰলৈ যাব কিন্তু জহাজিটো আহিপনে"

高度な使用法

評価コマンド

mozilla-foundation/common_voice_7_0のtestスプリットで評価するには、以下のコマンドを使用します。

python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-as --dataset mozilla-foundation/common_voice_7_0 --config as --split test

言語モデルを使用した推論

# 上記の基本的な使用法のコードと同じ

Common Voice 7 "test" (WER) の評価結果

言語モデルなし	言語モデルあり ( `./eval.py` を実行)
67	56.995

📚 ドキュメント

モデルの説明

このモデルは、facebookのwav2vec2-xls-r-300mをベースに、コモンボイスデータセットでファインチューニングされた自動音声認識モデルです。

想定される用途と制限

詳細な情報は提供されていません。

学習と評価データ

詳細な情報は提供されていません。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0003
学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップ比率 (lr_scheduler_warmup_ratio): 0.12
エポック数 (num_epochs): 240

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.7027	21.05	400	3.4157	1.0
1.1638	42.1	800	1.3498	0.7461
0.2266	63.15	1200	1.6147	0.7273
0.1473	84.21	1600	1.6649	0.7108
0.1043	105.26	2000	1.7691	0.7090
0.0779	126.31	2400	1.8300	0.7009
0.0613	147.36	2800	1.8681	0.6916
0.0471	168.41	3200	1.8567	0.6875
0.0343	189.46	3600	1.9054	0.6840
0.0265	210.51	4000	1.9020	0.6786
0.0219	231.56	4400	1.9068	0.6679