wav2vec2-large-xlsr-galicianオープンソース自動音声認識モデル

ホーム

Wav2vec2 Large Xlsr Galician

ifrzによって開発

ガリシア語向けに最適化された自動音声認識モデル、wav2vec2-large-xlsr-53を基にファインチューニング、WER指標7.12

音声認識

Transformers

#ガリシア語音声認識 #低WER(7.12)#XLSRファインチューニング

ダウンロード数 9,330

リリース時間 : 4/29/2022

モデル概要

これはガリシア語音声認識専用のファインチューニングモデルで、Facebookのwav2vec2-large-xlsr-53アーキテクチャを基に、OpenSLRとCommon Voiceデータセットで最適化訓練されています。

モデル特徴

低単語誤り率

テストセットで7.12%の単語誤り率(WER)を達成、優れた性能

複数データセット訓練

OpenSLRとMozilla Common Voiceの2つの高品質データセットを組み合わせてファインチューニング

XLSRアーキテクチャベース

クロスリンガル音声表現学習(XLSR)の強力なベースモデルを活用して最適化

モデル能力

ガリシア語音声認識

音声からテキストへの変換

16kHzモノラル音声処理

使用事例

音声文字起こし

ガリシア語音声からテキストへ

ガリシア語音声コンテンツを正確なテキストに変換

7.12%単語誤り率

音声アシスタント

ガリシア語音声コマンド認識

ガリシア語音声アシスタントシステムの音声コマンド理解に使用

🚀 wav2vec2-large-xlsr-galician

ガリシア語用にファインチューニングされた自動音声認識モデルです。OpenSLRやMozilla Common Voiceのデータセットを使用して訓練されています。

🚀 クイックスタート

このモデルは、ガリシア語の自動音声認識タスクに使用できます。以下の手順で使用を開始できます。

✨ 主な機能

ガリシア語の自動音声認識に特化したモデルです。
facebook/wav2vec2-large-xlsr-53 をベースにファインチューニングされています。
OpenSLRとMozilla Common Voiceのデータセットを使用して訓練されています。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers librosa torch

💻 使用例

基本的な使用法

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

model = Wav2Vec2ForCTC.from_pretrained("ifrz/wav2vec2-large-xlsr-galician")
processor = Wav2Vec2Processor.from_pretrained("ifrz/wav2vec2-large-xlsr-galician")

# Reading taken audio clip
import librosa, torch
audio, rate = librosa.load("./gl_test_1.wav", sr = 16000)

# Taking an input value
input_values = processor(audio, sampling_rate=16_000, return_tensors = "pt", padding="longest").input_values
# Storing logits (non-normalized prediction values)
logits = model(input_values).logits
# Storing predicted ids
prediction = torch.argmax(logits, dim = -1)

# Passing the prediction to the tokenzer decode to get the transcription
transcription = processor.batch_decode(prediction)[0]
print(transcription)

高度な使用法

# 高度な使用法については、以下の点を考慮してください。
# 1. 入力音声の品質を向上させるために、前処理を追加することができます。
# 2. バッチ処理を行うことで、複数の音声ファイルを一度に処理することができます。

# 例えば、以下のようにバッチ処理を行うことができます。
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import librosa, torch

model = Wav2Vec2ForCTC.from_pretrained("ifrz/wav2vec2-large-xlsr-galician")
processor = Wav2Vec2Processor.from_pretrained("ifrz/wav2vec2-large-xlsr-galician")

audio_files = ["./gl_test_1.wav", "./gl_test_2.wav"]
audio_batch = []

for file in audio_files:
    audio, rate = librosa.load(file, sr = 16000)
    audio_batch.append(audio)

input_values = processor(audio_batch, sampling_rate=16_000, return_tensors = "pt", padding="longest").input_values
logits = model(input_values).logits
prediction = torch.argmax(logits, dim = -1)
transcriptions = processor.batch_decode(prediction)

for transcription in transcriptions:
    print(transcription)

📚 ドキュメント

モデル情報

属性	详情
モデルタイプ	ガリシア語用にファインチューニングされたwav2vec2-large-xlsrモデル
訓練データ	OpenSLR 77、Mozilla Common Voice 8.0

テストに関する注意事項

⚠️ 重要提示

音声入力は16kHz（モノラル）でサンプリングする必要があります。

🔧 技術詳細

このモデルは、facebook/wav2vec2-large-xlsr-53 自己教師付きモデルをベースに、OpenSLR とMozilla Common_Voice のラベル付き音声データでファインチューニングされています。両方のデータセットは事前に精製されています。訓練メトリクスを確認することで結果を確認できます。