wav2vec2-large-xlsr-catalaオープンソース音声認識モデル - カタルーニャ語の音声を高精度に認識

ホーム

Wav2vec2 Large Xlsr Catala

softcatalaによって開発

facebook/wav2vec2-large-xlsr-53モデルをベースに微調整されたカタルーニャ語音声認識モデルで、一般音声データベースと議会音声データベースのデータで訓練されています。

音声認識その他オープンソースライセンス:Apache-2.0 #カタルーニャ語音声認識 #低単語誤り率（WER）#議会音声適合

ダウンロード数 64.30k

リリース時間 : 3/2/2022

モデル概要

これはカタルーニャ語の自動音声認識（ASR）に使用されるモデルで、カタルーニャ語の音声をテキストに変換することができます。

モデル特徴

複数データセットでの訓練

一般音声データベースと議会音声データベースの2つのデータセットを組み合わせて訓練することで、モデルの汎化能力を向上させました。

低単語誤り率

テストセットで6.92％の単語誤り率（WER）を達成し、優れた性能を示しました。

言語モデル不要

追加の言語モデルのサポートなしで直接使用することができます。

モデル能力

カタルーニャ語音声認識

音声をテキストに変換

使用事例

音声文字起こし

議会録音の文字起こし

議会会議の録音をテキスト記録に変換します。

議会音声データベースのテストセットで良好な結果を示しました。

有声書の文字起こし

カタルーニャ語の有声書をテキストに変換します。

有声書「聖ジョージの伝説」でのWERは13.23％です。

音声アシスタント

カタルーニャ語音声指令認識

カタルーニャ語対応の音声アシスタントやスマートデバイスに使用されます。

🚀 Wav2Vec2-Large-XLSR-Català

このモデルは、Common Voice と ParlamentParla のデータセットを使用して、カタルーニャ語で facebook/wav2vec2-large-xlsr-53 をファインチューニングしたものです。

⚠️ 重要提示

使用されたトレイン/開発/テストの分割は、CommonVoice 6.1データセットと完全に一致していません。CommonVoiceとParlamentParlaの両方のデータセットを組み合わせたカスタム分割が使用されており、ここで見つけることができます。CVテストデータセットで評価すると、そのデータセットの1144個の音声ファイルがこのモデルのトレーニング/評価に使用されているため、バイアスのあるWERが生成されます。WERは、トレーニング/評価中にモデルが見ていないこの test.csv を使用して計算されました。

💡 使用建议

このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは、カタルーニャ語に特化してファインチューニングされており、自動音声認識タスクに使用できます。トレーニングと評価のスクリプトは、GitHubリポジトリ ccoreilly/wav2vec2-catala で見つけることができます。

✨ 主な機能

カタルーニャ語の自動音声認識に特化したモデルです。
複数のデータセットを組み合わせてファインチューニングされています。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、必要なライブラリをインストールできます。

pip install torch torchaudio datasets transformers

💻 使用例

基本的な使用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "ca", split="test[:2%]")

processor = Wav2Vec2Processor.from_pretrained("ccoreilly/wav2vec2-large-xlsr-catala") 
model = Wav2Vec2ForCTC.from_pretrained("ccoreilly/wav2vec2-large-xlsr-catala")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
	speech_array, sampling_rate = torchaudio.load(batch["path"])
	batch["speech"] = resampler(speech_array).squeeze().numpy()
	return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
	logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset["sentence"][:2])