wav2vec2-large-xls-r-300m-ha-cv8オープンソースモデル - ハウサ語の音声認識を簡単に実現

ホーム

Wav2vec2 Large Xls R 300m Ha Cv8

anuragshasによって開発

facebook/wav2vec2-xls-r-300mをCommon Voiceデータセットでファインチューニングしたハウサ語音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ハウサ語音声認識 #低リソース言語ASR #Wav2Vec2ファインチューニング

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

これはハウサ語に最適化された自動音声認識(ASR)モデルで、XLS-R-300Mアーキテクチャを基に、Common Voice 8.0ハウサ語データセットでファインチューニングされています。

モデル特徴

ハウサ語最適化

ハウサ語音声認識タスクに特化してファインチューニング

XLS-Rアーキテクチャ採用

FacebookのXLS-R-300M事前学習モデルをベースに使用

低い単語誤り率

テストセットで36.295%のWER(言語モデル使用時)を達成

モデル能力

ハウサ語音声認識

音声からテキストへの変換

音声文字起こし

使用事例

音声文字起こし

ハウサ語音声テキスト化

ハウサ語音声コンテンツをテキストに変換

テストセットWER 36.295%

音声アシスタント

ハウサ語音声インタラクション

ハウサ語音声コマンド認識をサポート

🚀 XLS-R-300M - Hausa

このモデルは、facebook/wav2vec2-xls-r-300m を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.6094
単語誤り率 (Wer): 0.5234

🚀 クイックスタート

このモデルは、自動音声認識タスクに使用できます。以下のセクションでは、トレーニングパラメータ、評価コマンド、推論の例などの詳細を提供します。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-ha-cv8"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "ha", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
# => "kakin hade ya ke da kyautar"

高度な使用法

このセクションには高度な使用法の具体的な説明がないため、省略します。

📚 ドキュメント

モデルの説明

詳細情報は必要です。

想定される用途と制限

詳細情報は必要です。

トレーニングと評価データ

詳細情報は必要です。

トレーニング手順

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

学習率: 0.0001
トレーニングバッチサイズ: 16
評価バッチサイズ: 8
シード: 13
勾配累積ステップ: 2
総トレーニングバッチサイズ: 32
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: cosine_with_restarts
学習率スケジューラのウォームアップステップ: 1000
エポック数: 100

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
2.9599	6.56	400	2.8650	1.0
2.7357	13.11	800	2.7377	0.9951
1.3012	19.67	1200	0.6686	0.7111
1.0454	26.23	1600	0.5686	0.6137
0.9069	32.79	2000	0.5576	0.5815
0.82	39.34	2400	0.5502	0.5591
0.7413	45.9	2800	0.5970	0.5586
0.6872	52.46	3200	0.5817	0.5428
0.634	59.02	3600	0.5636	0.5314
0.6022	65.57	4000	0.5780	0.5229
0.5705	72.13	4400	0.6036	0.5323
0.5408	78.69	4800	0.6119	0.5336
0.5225	85.25	5200	0.6105	0.5270
0.5265	91.8	5600	0.6034	0.5231
0.5154	98.36	6000	0.6094	0.5234

フレームワークのバージョン

Transformers 4.16.1
Pytorch 1.10.0+cu111
Datasets 1.18.2
Tokenizers 0.11.0

評価コマンド

mozilla-foundation/common_voice_8_0 の test スプリットで評価するには

python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-ha-cv8 --dataset mozilla-foundation/common_voice_8_0 --config ha --split test

評価結果 (Common Voice 8 "test" の単語誤り率 (WER))

言語モデルなし	言語モデルあり (`./eval.py` を実行)
47.821	36.295

🔧 技術詳細

このセクションには具体的な技術詳細がないため、省略します。

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご