シナイボイスアラビア語自動音声認識（sinai - voice - ar - stt）オープンソース音声認識モデル

ホーム

Sinai Voice Ar Stt

bakrianooによって開発

facebook/wav2vec2-xls-r-300mをファインチューニングしたアラビア語音声認識モデルで、Common Voiceアラビア語版データセットで訓練されています。

音声認識

Transformers

アラビア語オープンソースライセンス:Apache-2.0 #アラビア語音声認識 #低い単語誤り率 #Common Voiceデータセット

ダウンロード数 29

リリース時間 : 3/2/2022

モデル概要

これはアラビア語の自動音声認識（ASR）モデルで、アラビア語の音声をテキストに変換することができます。モデルはCommon Voiceアラビア語データセットでファインチューニングされ、標準アラビア語の音声認識タスクに適しています。

モデル特徴

高性能アラビア語認識

Common Voiceアラビア語テストセットで18.1%の単語誤り率（WER）と4.9%の文字誤り率（CER）を達成しました。

大規模事前学習モデルに基づく

facebook/wav2vec2-xls-r-300mモデルをファインチューニングしており、強力な音声特徴抽出能力を引き継いでいます。

言語モデルなしの推論をサポート

追加の言語モデルのサポートなしで、直接モデルを使用して音声認識を行うことができます。

モデル能力

アラビア語音声認識

音声からテキストへの変換

自動音声認識

使用事例

音声文字起こし

アラビア語音声文字起こし

アラビア語の音声内容をテキストに変換します。

標準アラビア語テストセットで単語誤り率18.1%

音声アシスタント

アラビア語音声指令認識

アラビア語の音声アシスタントシステムにおける音声指令認識に使用されます。

🚀 シナイボイスアラビア語音声認識モデル

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - ARデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.2141
単語誤り率 (Wer): 0.1808

🚀 クイックスタート

評価コマンド

mozilla-foundation/common_voice_8_0のtestスプリットで評価するには、以下のコマンドを実行します。

python eval.py --model_id bakrianoo/sinai-voice-ar-stt --dataset mozilla-foundation/common_voice_8_0 --config ar --split test

💻 使用例

基本的な使用法

from transformers import (Wav2Vec2Processor, Wav2Vec2ForCTC)
import torchaudio
import torch

def speech_file_to_array_fn(voice_path, resampling_to=16000):
    speech_array, sampling_rate = torchaudio.load(voice_path)
    resampler = torchaudio.transforms.Resample(sampling_rate, resampling_to)
    
    return resampler(speech_array)[0].numpy(), sampling_rate

# load the model
cp = "bakrianoo/sinai-voice-ar-stt"
processor = Wav2Vec2Processor.from_pretrained(cp)
model = Wav2Vec2ForCTC.from_pretrained(cp)

# recognize the text in a sample sound file
sound_path = './my_voice.mp3'

sample, sr = speech_file_to_array_fn(sound_path)
inputs = processor([sample], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values,).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))

📚 詳細ドキュメント

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 0.0002
学習バッチサイズ: 32
評価バッチサイズ: 10
シード: 42
分散タイプ: マルチGPU
デバイス数: 8
総学習バッチサイズ: 256
総評価バッチサイズ: 80
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラタイプ: 線形
学習率スケジューラウォームアップステップ: 1000
エポック数: 10
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
1.354	0.64	1000	0.4109	0.4493
0.5886	1.28	2000	0.2798	0.3099
0.4977	1.92	3000	0.2387	0.2673
0.4253	2.56	4000	0.2266	0.2523
0.3942	3.2	5000	0.2171	0.2437
0.3619	3.84	6000	0.2076	0.2253
0.3245	4.48	7000	0.2088	0.2186
0.308	5.12	8000	0.2086	0.2206
0.2881	5.76	9000	0.2089	0.2105
0.2557	6.4	10000	0.2015	0.2004
0.248	7.04	11000	0.2044	0.1953
0.2251	7.68	12000	0.2058	0.1932
0.2052	8.32	13000	0.2117	0.1878
0.1976	8.96	14000	0.2104	0.1825
0.1845	9.6	15000	0.2156	0.1821

フレームワークバージョン

Transformers 4.16.2
Pytorch 1.10.2+cu113
Datasets 1.18.3
Tokenizers 0.11.0

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

🔍 モデル情報

属性	詳情
モデルタイプ	シナイボイスアラビア語音声認識モデル
学習データ	mozilla-foundation/common_voice_8_0
評価指標	単語誤り率 (Wer), 文字誤り率 (Cer)