wav2vec2-large-xlsr-53-italianオープンソースモデル - イタリア語の自動音声認識を高精度で実現

ホーム

Wav2vec2 Large Xlsr 53 Italian

jonatasgrosmanによって開発

facebook/wav2vec2-large-xlsr-53モデルをベースに微調整されたイタリア語自動音声認識モデルで、Common Voice 6.1データセットで訓練されました。

音声認識その他オープンソースライセンス:Apache-2.0 #イタリア語音声認識 #低単語誤り率 #XLSR微調整

ダウンロード数 1,012

リリース時間 : 3/2/2022

モデル概要

このモデルはイタリア語に最適化された自動音声認識(ASR)モデルで、XLSR - 53アーキテクチャをベースに微調整され、16kHzサンプリングレートの音声入力変換をサポートします。

モデル特徴

高性能イタリア語認識

Common Voiceイタリア語テストセットで9.41%の単語誤り率(WER)と2.29%の文字誤り率(CER)を達成しました。

言語モデル強化

言語モデルを組み合わせると、単語誤り率をさらに6.91%に、文字誤り率を1.83%に下げることができます。

多シーン適用可能

標準テストセットとロバスト音声コンテスト開発セットで良好な性能を示し、強い汎化能力を示しています。

簡単な統合

HuggingSoundライブラリとカスタムスクリプトの2つの使用方法を提供し、アプリケーションへの迅速な統合を容易にします。

モデル能力

イタリア語音声をテキストに変換

16kHzオーディオ処理

バッチ音声認識

長いオーディオのブロック処理

使用事例

音声文字起こし

イタリア語音声内容の文字起こし

イタリア語音声内容をテキスト形式に変換します。

高い精度の文字起こし結果で、コンテンツのアーカイブと分析に適しています。

音声アシスタント

イタリア語音声指令認識

イタリア語音声アシスタントシステムの指令認識に使用されます。

低遅延で高い精度の指令認識

バリアフリーアプリケーション

音声を文字に変換する支援

聴覚障害者にリアルタイムの音声を文字に変換するサービスを提供します。

高い精度のリアルタイム変換

🚀 イタリア語音声認識用の微調整XLSR - 53大規模モデル

このモデルは、facebook/wav2vec2-large-xlsr-53 をイタリア語コーパスで微調整したもので、Common Voice 6.1 のトレーニングセットと検証セットを使用しています。このモデルを使用する際には、音声入力のサンプリングレートが16kHzであることを確認してください。

このモデルの微調整には、OVHcloud が提供するGPU計算リソースが利用されています。

トレーニングスクリプトはこちらで見つけることができます：https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 クイックスタート

このモデルは、facebook/wav2vec2-large-xlsr-53 をイタリア語データセットで微調整したもので、イタリア語の自動音声認識タスクに使用できます。使用する際には、音声入力のサンプリングレートが16kHzであることを確認してください。

✨ 主な機能

微調整モデル：XLSR - 53大規模モデルをイタリア語で微調整し、イタリア語の音声認識に適合させています。
複数のデータセットサポート：Common Voiceなどのデータセットを使用してトレーニングと評価を行っています。
指標評価：単語誤り率（WER）と文字誤り率（CER）などの評価指標を提供しています。

📦 インストール

ドキュメントに具体的なインストール手順は記載されていません。関連する依存ライブラリ（huggingsound、transformers、librosa、datasets など）の公式インストールガイドを参照してください。

💻 使用例

基本的な使用法

HuggingSound ライブラリを使用して音声認識を行う例です：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-italian")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高度な使用法

独自の推論スクリプトを作成する例です：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "it"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-italian"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# データセットの前処理
# 音声ファイルを配列として読み込む必要があります
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("参照:", test_dataset[i]["sentence"])
    print("予測:", predicted_sentence)

以下は一部の認識結果の例です：

参照テキスト	予測テキスト
POI LEI MORÌ.	POI LEI MORÌ
IL LIBRO HA SUSCITATO MOLTE POLEMICHE A CAUSA DEI SUOI CONTENUTI.	IL LIBRO HA SUSCITATO MOLTE POLEMICHE A CAUSA DEI SUOI CONTENUTI
"FIN DALL'INIZIO LA SEDE EPISCOPALE È STATA IMMEDIATAMENTE SOGGETTA ALLA SANTA SEDE."	FIN DALL'INIZIO LA SEDE EPISCOPALE È STATA IMMEDIATAMENTE SOGGETTA ALLA SANTA SEDE
IL VUOTO ASSOLUTO?	IL VUOTO ASSOLUTO
DOPO ALCUNI ANNI, EGLI DECISE DI TORNARE IN INDIA PER RACCOGLIERE ALTRI INSEGNAMENTI.	DOPO ALCUNI ANNI EGLI DECISE DI TORNARE IN INDIA PER RACCOGLIERE ALTRI INSEGNAMENTI
SALVATION SUE	SALVATION SOO
IN QUESTO MODO, DECIO OTTENNE IL POTERE IMPERIALE.	IN QUESTO MODO DECHO OTTENNE IL POTERE IMPERIALE
SPARTA NOVARA ACQUISISCE IL TITOLO SPORTIVO PER GIOCARE IN PRIMA CATEGORIA.	PARCANOVARACFILISCE IL TITOLO SPORTIVO PER GIOCARE IN PRIMA CATEGORIA
IN SEGUITO, KYGO E SHEAR HANNO PROPOSTO DI CONTINUARE A LAVORARE SULLA CANZONE.	IN SEGUITO KIGO E SHIAR HANNO PROPOSTO DI CONTINUARE A LAVORARE SULLA CANZONE
ALAN CLARKE	ALAN CLARK

📚 ドキュメント

評価方法

mozilla-foundation/common_voice_6_0 データセットの test 分割で評価する場合：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-italian --dataset mozilla-foundation/common_voice_6_0 --config it --split test

speech-recognition-community-v2/dev_data データセットで評価する場合：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-italian --dataset speech-recognition-community-v2/dev_data --config it --split validation --chunk_length_s 5.0 --stride_length_s 1.0

モデル指標

プロパティ	詳細
モデルタイプ	イタリア語音声認識用の微調整XLSR - 53大規模モデル
トレーニングデータ	Common Voice、mozilla - foundation/common_voice_6_0
評価指標	単語誤り率（WER）、文字誤り率（CER）

一部の評価結果は以下の通りです：

Common Voice itデータセットでの結果：
- テストセットのWER：9.41
- テストセットのCER：2.29
- テストセットのWER (+LM)：6.91
- テストセットのCER (+LM)：1.83
Robust Speech Event - Dev Dataデータセットでの結果：
- 開発セットのWER：21.78
- 開発セットのCER：7.94
- 開発セットのWER (+LM)：15.82
- 開発セットのCER (+LM)：6.83

📄 ライセンス

このモデルはApache 2.0ライセンスを使用しています。

🔧 技術詳細

このモデルは、facebook/wav2vec2-large-xlsr-53 を微調整したもので、Common Voice 6.1 のトレーニングセットと検証セットを使用しています。微調整の過程では、GPU計算リソースを使用してトレーニングを行い、イタリア語の音声認識タスクに適合させています。

📚 引用

このモデルを引用する場合は、以下のBibTeX形式を使用してください：

@misc{grosman2021xlsr53-large-italian,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {I}talian},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-italian}},
  year={2021}
}