wav2vec2-large-xlsr-catalaオープンソースモデル - 無料でカタルーニャ語の自動音声認識を実現

ホーム

Wav2vec2 Large Xlsr Catala

ccoreillyによって開発

facebook/wav2vec2-large-xlsr-53モデルを基にファインチューニングしたカタルーニャ語自動音声認識モデル

音声認識その他オープンソースライセンス:Apache-2.0 #カタルーニャ語音声認識 #低い単語誤り率 #議会音声最適化

ダウンロード数 31

リリース時間 : 3/2/2022

モデル概要

このモデルはカタルーニャ語に最適化された自動音声認識(ASR)モデルで、Common VoiceとParlamentParlaデータセットを使用してファインチューニングされており、16kHzサンプリングレートの音声入力をサポートします。

モデル特徴

複数データセットでのファインチューニング

Common VoiceとParlamentParlaデータセットを組み合わせてトレーニングし、モデルの適応性を向上

低い単語誤り率

テストセットで6.92%の単語誤り率(WER)を達成し、優れた性能を発揮

言語モデル不要

追加の言語モデルなしで直接使用可能

モデル能力

音声認識

カタルーニャ語音声からテキストへの変換

16kHzオーディオ処理

使用事例

音声文字起こし

議会発言の文字起こし

カタルーニャ議会の発言内容をテキストに変換

ParlamentParlaデータセットで良好な性能

オーディオブックの文字起こし

カタルーニャ語オーディオブックの内容をテキストに変換

『聖ジョージ伝説』オーディオブックでWER13.23%

音声アシスタント

カタルーニャ語音声コマンド認識

カタルーニャ語音声アシスタントシステム向け

🚀 カタルーニャ語用Wav2Vec2-Large-XLSR

このモデルは、Common Voice と ParlamentParla のデータセットを用いて、カタルーニャ語に対して facebook/wav2vec2-large-xlsr-53 をファインチューニングしたものです。音声認識タスクに特化し、高精度な音声認識を実現します。

🚀 クイックスタート

このモデルは、カタルーニャ語の音声認識に特化しており、カタルーニャ語の音声データを高精度に認識することができます。ただし、使用する際にはいくつかの注意点があります。

⚠️ 重要提示

使用したトレイン/開発/テストの分割は、CommonVoice 6.1データセットと完全に一致していません。CommonVoiceとParlamentParlaの両方のデータセットを組み合わせたカスタム分割が使用されており、こちらで確認できます。CVテストデータセットで評価すると、そのデータセットの1144個の音声ファイルがこのモデルのトレーニング/評価に使用されているため、バイアスのあるWERが得られます。WERは、この test.csv を使用して計算されており、これはトレーニング/評価中にモデルが見ていないデータです。

💡 使用建议

このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

✨ 主な機能

カタルーニャ語の音声を高精度に認識します。
データセットとして、Common VoiceとParlamentParlaを用いてファインチューニングされています。

📦 インストール

このモデルはHugging FaceのTransformersライブラリを通じて利用できます。必要なライブラリをインストールすることで、簡単に使用できます。

💻 使用例

基本的な使用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "ca", split="test[:2%]")

processor = Wav2Vec2Processor.from_pretrained("ccoreilly/wav2vec2-large-xlsr-catala") 
model = Wav2Vec2ForCTC.from_pretrained("ccoreilly/wav2vec2-large-xlsr-catala")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
	speech_array, sampling_rate = torchaudio.load(batch["path"])
	batch["speech"] = resampler(speech_array).squeeze().numpy()
	return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
	logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset["sentence"][:2])