wav2vec2-xls-r-1b-italianオープンソースモデル - イタリア語の自動音声認識を高精度で実現

ホーム

Wav2vec2 Xls R 1b Italian

jonatasgrosmanによって開発

これはXLS-R 1Bアーキテクチャに基づくイタリア語自動音声認識モデルで、複数のイタリア語データセットでファインチューニングされています

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #イタリア語音声認識 #高精度WER #複数データセットトレーニング

ダウンロード数 2,703

リリース時間 : 3/2/2022

モデル概要

このモデルはイタリア語音声認識タスクに特化して最適化されており、イタリア語音声をテキストに変換できます

モデル特徴

高性能イタリア語認識

Common Voice 8.0テストセットで9.04%のWERと2.2%のCERを達成

言語モデル拡張対応

言語モデルと組み合わせると、WERは6.75%、CERは1.76%まで低下可能

複数データセットトレーニング

Common Voice 8.0、Multilingual TEDx、Multilingual LibriSpeech、Voxpopuliなど複数データセットでトレーニング

16kHzサンプリングレート対応

16kHzサンプリングレートの音声入力に最適化

モデル能力

イタリア語音声認識

音声からテキストへの変換

言語モデル拡張対応

使用事例

音声文字起こし

イタリア語音声文字起こし

イタリア語音声コンテンツをテキストに変換

Common Voice 8.0テストセットで9.04%のWERを達成

音声アシスタント

イタリア語音声コマンド認識

イタリア語音声アシスタントシステムでの音声コマンド認識に使用

🚀 イタリア語音声認識用に微調整されたXLS - R 1Bモデル

このモデルは、[facebook/wav2vec2 - xls - r - 1b](https://huggingface.co/facebook/wav2vec2 - xls - r - 1b)をベースに、[Common Voice 8.0](https://huggingface.co/datasets/mozilla - foundation/common_voice_8_0)、Multilingual TEDx、Multilingual LibriSpeech、Voxpopuliのトレーニングセットと検証セットを使用して、イタリア語に対して微調整されています。このモデルを使用する際は、音声入力のサンプリングレートが16kHzであることを確認してください。

このモデルはHuggingSoundツールを使用して微調整され、[OVHcloud](https://www.ovhcloud.com/en/public - cloud/ai - training/)が提供してくれたGPU計算リソースに感謝いたします。

✨ 主な機能

複数データセットでの微調整：複数の公開データセットを使用して、イタリア語の音声認識が最適化されています。
高精度な性能：複数の評価指標で良好な結果を得ており、例えばCommon Voice 8データセットでのテストでは、WERが9.04%、CERが2.2%です。

📦 インストール

ドキュメントに具体的なインストール手順は記載されていません。transformers、librosa、torch、datasetsなどの関連依存ライブラリの公式ドキュメントを参照してインストールしてください。

💻 使用例

基本的な使用法

HuggingSoundライブラリを使用する場合：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-xls-r-1b-italian")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高度な使用法

独自の推論スクリプトを作成する場合：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "it"
MODEL_ID = "jonatasgrosman/wav2vec2-xls-r-1b-italian"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# データセットの前処理
# 音声ファイルを配列として読み込む必要があります
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

📚 ドキュメント

評価コマンド

mozilla - foundation/common_voice_8_0のtest分割セットで評価する場合：

python eval.py --model_id jonatasgrosman/wav2vec2-xls-r-1b-italian --dataset mozilla-foundation/common_voice_8_0 --config it --split test

speech - recognition - community - v2/dev_dataで評価する場合：

python eval.py --model_id jonatasgrosman/wav2vec2-xls-r-1b-italian --dataset speech-recognition-community-v2/dev_data --config it --split validation --chunk_length_s 5.0 --stride_length_s 1.0

モデル評価結果

タスク	データセット	評価指標	値
自動音声認識	Common Voice 8	テストWER	9.04
自動音声認識	Common Voice 8	テストCER	2.2
自動音声認識	Common Voice 8（+LM）	テストWER	6.75
自動音声認識	Common Voice 8（+LM）	テストCER	1.76
自動音声認識	Robust Speech Event - Dev Data	開発セットWER	23.38
自動音声認識	Robust Speech Event - Dev Data	開発セットCER	9.41
自動音声認識	Robust Speech Event - Dev Data（+LM）	開発セットWER	15.84
自動音声認識	Robust Speech Event - Dev Data（+LM）	開発セットCER	8.93
自動音声認識	Robust Speech Event - Test Data	テストWER	18.34

📄 ライセンス

このプロジェクトはApache 2.0ライセンスの下で提供されています。

📖 引用

このモデルを引用する場合は、以下のBibTeX形式を使用できます。

@misc{grosman2021xlsr-1b-italian,
  title={Fine-tuned {XLS-R} 1{B} model for speech recognition in {I}talian},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-xls-r-1b-italian}},
  year={2022}
}