wav2vec2-large-xls-r-300m-breton-cv8オープンソースモデル - ブルトン語の音声認識をサポート

ホーム

Wav2vec2 Large Xls R 300m Breton Cv8

infinitejoyによって開発

これはfacebook/wav2vec2-xls-r-300mをブルトン語データセットで微調整した自動音声認識モデルです

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ブルトン語音声認識 #低リソース言語処理 #多言語音声モデル

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

このモデルはブルトン語の自動音声認識タスクに特化しており、Common Voice 8データセットで微調整されています

モデル特徴

ブルトン語対応

ブルトン語に特化して最適化された音声認識モデル

XLS-Rアーキテクチャに基づく

強力なwav2vec2-xls-r-300mをベースモデルとして使用

Common Voiceデータセットでの学習

Mozilla Common Voice 8のブルトン語データセットで微調整

モデル能力

ブルトン語音声認識

音声からテキストへの変換

使用事例

音声文字起こし

ブルトン語音声文字起こし

ブルトン語の音声をテキストに変換

テストWER 54.855、テストCER 17.865

音声アシスタント

ブルトン語音声アシスタント

ブルトン語の音声対話アプリをサポート

🚀 XLS - R - 300M - ブルトン語

このモデルは、[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m) を MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BR データセットでファインチューニングしたバージョンです。評価セットでは以下の結果が得られました。

損失：未提供
単語誤り率（Wer）：未提供

✨ 主な機能

自動音声認識タスクに適しています。
Mozilla財団のCommon Voice 8.0ブルトン語データセットを基にファインチューニングされています。

🚀 クイックスタート

このモデルは自動音声認識タスクに使用できます。以下に使用例を示します。

💻 使用例

基本的な使用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F


model_id = "infinitejoy/wav2vec2-large-xls-r-300m-breton-cv8"

sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "br", split="test", streaming=True, use_auth_token=True))

sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()

model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

input_values = processor(resampled_audio, return_tensors="pt").input_values

with torch.no_grad():
    logits = model(input_values).logits

transcription = processor.batch_decode(logits.numpy()).text

評価コマンド

1. `mozilla - foundation/common_voice_8_0` データセットの `test` 分割で評価

python eval.py --model_id infinitejoy/wav2vec2-large-xls-r-300m-breton-cv8 --dataset mozilla-foundation/common_voice_8_0 --config br --split test

2. `speech - recognition - community - v2/dev_data` データセットで評価

python eval.py --model_id infinitejoy/wav2vec2-large-xls-r-300m-breton-cv8 --dataset speech-recognition-community-v2/dev_data --config br --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📚 ドキュメント

モデル情報

属性	詳細
モデルタイプ	[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m) を基にファインチューニングされた自動音声認識モデル
訓練データ	mozilla - foundation/common_voice_8_0（ブルトン語）