xlsr_indonesiaオープンソースインドネシア語自動音声認識モデル - 無料でデプロイし、会話内容を正確に認識

ホーム

Xlsr Indonesia

acul3によって開発

XLSRアーキテクチャを基にファインチューニングしたインドネシア語自動音声認識(ASR)モデル、Common Voiceインドネシア語データセットでトレーニング

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #インドネシア語音声認識 #XLSRファインチューニング #低WERモデル

ダウンロード数 23

リリース時間 : 3/2/2022

モデル概要

このモデルはWav2Vec2 XLSRアーキテクチャのファインチューン版で、インドネシア語の自動音声認識タスク専用に設計されています。Common Voiceデータセットでトレーニングされ、インドネシア語音声をテキストに変換します。

モデル特徴

XLSRアーキテクチャベース

大規模クロスランゲージ音声表現(XLSR)アーキテクチャを活用し、優れた音声特徴抽出能力を提供

インドネシア語最適化

インドネシア語の発音特性と言語構造に適応するよう専用にファインチューニング

Common Voiceデータセットでトレーニング

公開のCommon Voiceインドネシア語データセットを使用してトレーニング、データ品質が信頼できる

モデル能力

インドネシア語音声認識

音声からテキストへ

音声コンテンツ文字起こし

使用事例

音声文字起こし

インドネシア語音声文字起こし

インドネシア語音声コンテンツをテキスト形式に変換

Common Voiceテストセットで25.7%のWER(単語誤り率)を達成

音声アシスタント

インドネシア語音声コマンド認識

インドネシア語音声アシスタントや制御システムの音声コマンド認識に使用

🚀 音声自動認識モデル「munggok/xlsr_indonesia」

このプロジェクトは、自動音声認識（ASR）のためのモデル「munggok/xlsr_indonesia」に関するものです。Common Voiceのインドネシア語データセットを使用して評価を行い、モデルの性能を測定します。

🚀 クイックスタート

以下のコードは、Common Voiceのインドネシア語テストデータセットを使用して、モデル「munggok/xlsr_indonesia」の評価を行う例です。

基本的な使用法

import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)
import torch
import re
import sys
model_name = "munggok/xlsr_indonesia"
device = "cuda"
chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"]'  # noqa: W605
model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)
ds = load_dataset("common_voice", "id", split="test", data_dir="./cv-corpus-6.1-2020-12-11")
resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch
ds = ds.map(map_to_array)
def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["target"] = batch["sentence"]
    return batch
result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
wer = load_metric("wer")
print(wer.compute(predictions=result["predicted"], references=result["target"]))