wav2vec2-large-100k-voxpopuli-catalaオープンソースモデル - カタルーニャ語の音声を高精度に認識

ホーム

Wav2vec2 Large 100k Voxpopuli Catala

ccoreillyによって開発

facebook/wav2vec2-large-100k-voxpopuliモデルを微調整したカタルーニャ語音声認識モデル

音声認識その他オープンソースライセンス:Apache-2.0 #カタルーニャ語音声認識 #低い単語誤り率 #議会音声最適化

ダウンロード数 56

リリース時間 : 3/2/2022

モデル概要

これはカタルーニャ語に対する自動音声認識(ASR)モデルで、Common VoiceとParlamentParlaデータセットを使用して微調整され、カタルーニャ語の音声をテキストに変換することができます。

モデル特徴

複数データセット訓練

Common VoiceとParlamentParlaの2つのデータセットを組み合わせて訓練し、モデルの汎化能力を向上させます。

低い単語誤り率

テストセットで5.98%の単語誤り率(WER)を達成し、優れた性能を発揮します。

16kHzサンプリングレート対応

16kHzサンプリングレートの音声入力に特化して最適化されています。

モデル能力

カタルーニャ語音声認識

音声からテキストへの変換

自動音声認識

使用事例

音声文字起こし

議会発言の文字起こし

カタルーニャ議会の発言録音を文字記録に変換します。

ParlamentParlaデータセットで良好な結果を示します。

音声アシスタント

カタルーニャ語の音声アシスタントに音声認識機能を提供します。

教育

言語学習アプリ

カタルーニャ語学習アプリの発音評価機能に使用されます。

🚀 Wav2Vec2-Large-100k-VoxPopuli-Català

このモデルは、Common Voice と ParlamentParla データセットを使用して、カタルーニャ語で facebook/wav2vec2-large-100k-voxpopuli をファインチューニングしたものです。

🚀 クイックスタート

⚠️ 重要提示

このモデルは以下のURLに移動しました: https://huggingface.co/softcatala/wav2vec2-large-100k-voxpopuli-catala

このモデルは、Common Voice と ParlamentParla データセットを用いて、カタルーニャ語で facebook/wav2vec2-large-100k-voxpopuli をファインチューニングしています。

⚠️ 重要提示

使用されたトレイン/開発/テストの分割は、CommonVoice 6.1データセットと完全に一致していません。CommonVoiceとParlamentParlaの両方のデータセットを組み合わせたカスタム分割が使用されており、こちらで確認できます。CVテストデータセットで評価すると、そのデータセットの1144個の音声ファイルがこのモデルのトレーニング/評価に使用されているため、バイアスのあるWERが得られます。 WERは、このモデルがトレーニング/評価中に見ていない test.csv を使用して計算されました。

トレーニングと評価のスクリプトは、GitHubリポジトリ ccoreilly/wav2vec2-catala で見つけることができます。

このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

✨ 主な機能

モデル情報

属性	详情
モデルタイプ	音声認識モデル
トレーニングデータ	Common Voice、ParlamentParla
評価指標	単語誤り率 (WER)

モデルの結果

単語誤り率は、モデルが見ていない以下のデータセットで評価されました:

データセット	WER
Test split CV+ParlamentParla	5.98%
Google Crowsourced Corpus	12.14%
オーディオブック “La llegenda de Sant Jordi”	12.02%

💻 使用例

基本的な使用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "ca", split="test[:2%]")

processor = Wav2Vec2Processor.from_pretrained("ccoreilly/wav2vec2-large-100k-voxpopuli-catala") 
model = Wav2Vec2ForCTC.from_pretrained("ccoreilly/wav2vec2-large-100k-voxpopuli-catala")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
	speech_array, sampling_rate = torchaudio.load(batch["path"])
	batch["speech"] = resampler(speech_array).squeeze().numpy()
	return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
	logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset["sentence"][:2])