wav2vec2-large-xlsr-53-icelandic-ep30-967hオープンソース音響モデル

ホーム

Wav2vec2 Large Xlsr 53 Icelandic Ep30 967h

language-and-voice-labによって開発

アイスランド語の自動音声認識タスク用に微調整された音響モデルで、967時間のアイスランド語データを使って訓練されました。

音声認識

Transformers

その他#アイスランド語音声認識 #高精度WER #大規模微調整

ダウンロード数 2,153

リリース時間 : 7/30/2023

モデル概要

このモデルは、facebook/wav2vec2-large-xlsr-53を30サイクル微調整した成果物で、アイスランド語の自動音声認識タスクに特化しています。

モデル特徴

アイスランド語専用

アイスランド語に特化して最適化され、967時間のアイスランド語データを使って微調整されました。

高品質の訓練データ

Samrómur Milljónコーパスを使用し、100万件の自動検証済みの録音データが含まれています。

優れた性能

複数のテストセットでWER指標が良好な結果を示し、最低で4.234に達しました。

モデル能力

アイスランド語音声認識

音声からテキストへの変換

自動音声文字起こし

使用事例

音声文字起こし

子供の音声認識

子供の音声内容を認識します。

Samrómur ChildrenテストセットでのWERは6.467です。

議会演説の文字起こし

アイスランド議会の演説内容を文字起こしします。

AlthingiテストセットでのWERは17.904です。

🚀 wav2vec2-large-xlsr-53-icelandic-ep30-967h

“wav2vec2-large-xlsr-53-icelandic-ep30-967h” は、アイスランド語の自動音声認識に適した音響モデルです。このモデルは、Language and Voice Laboratory が Samrómur プラットフォームを通じて収集した 967 時間分のアイスランド語データを使用し、facebook/wav2vec2-large-xlsr-53 モデルを 30 エポックで微調整した成果物です。

✨ 主な機能

アイスランド語の自動音声認識タスクに特化して微調整されています。
特定のアイスランド語コーパス Samrómur Milljón を使用して訓練されています。
以前のモデルとは異なる訓練データを使用しています。

💻 使用例

基本的な使用法

import torch
from transformers import Wav2Vec2Processor
from transformers import Wav2Vec2ForCTC

#Load the processor and model.
MODEL_NAME="language-and-voice-lab/wav2vec2-large-xlsr-53-icelandic-ep30-967h"
processor = Wav2Vec2Processor.from_pretrained(MODEL_NAME)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_NAME)

#Load the dataset
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("language-and-voice-lab/samromur_children", split="test")

#Downsample to 16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))

#Process the dataset
def prepare_dataset(batch):
    audio = batch["audio"]
    #Batched output is "un-batched" to ensure mapping is correct
    batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"]).input_values[0]
    with processor.as_target_processor():
        batch["labels"] = processor(batch["normalized_text"]).input_ids
    return batch
ds = ds.map(prepare_dataset, remove_columns=ds.column_names,num_proc=1)

#Define the evaluation metric
import numpy as np
wer_metric = load_metric("wer")
def compute_metrics(pred):
    pred_logits = pred.predictions
    pred_ids = np.argmax(pred_logits, axis=-1)
    pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id
    pred_str = processor.batch_decode(pred_ids)
    #We do not want to group tokens when computing the metrics
    label_str = processor.batch_decode(pred.label_ids, group_tokens=False)
    wer = wer_metric.compute(predictions=pred_str, references=label_str)
    return {"wer": wer}

#Do the evaluation (with batch_size=1)
model = model.to(torch.device("cuda"))
def map_to_result(batch):
    with torch.no_grad():
        input_values = torch.tensor(batch["input_values"], device="cuda").unsqueeze(0)
        logits = model(input_values).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_str"] = processor.batch_decode(pred_ids)[0]
    batch["sentence"] = processor.decode(batch["labels"], group_tokens=False)
    return batch
results = ds.map(map_to_result,remove_columns=ds.column_names)

#Compute the overall WER now.
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results["pred_str"], references=results["sentence"])))

📚 ドキュメント

モデル情報

属性	詳細
モデルタイプ	アイスランド語の自動音声認識に適した音響モデル
訓練データ	Samrómur Milljón コーパス。このコーパスは "Samromur Unverified 22.07" コーパスの 100 万件の録音を自動検証した結果です。

評価結果

データセット	タスク	指標	値
Samrómur (Test)	自動音声認識	WER	7.698
Samrómur (Dev)	自動音声認識	WER	6.786
Samrómur Children (Test)	自動音声認識	WER	6.467
Samrómur Children (Dev)	自動音声認識	WER	4.234
Malrómur (Test)	自動音声認識	WER	6.631
Malrómur (Dev)	自動音声認識	WER	5.836
Althingi (Test)	自動音声認識	WER	17.904
Althingi (Dev)	自動音声認識	WER	17.931

テスト結果

テスト結果：0.076

🔧 技術詳細

このモデルは、facebook/wav2vec2-large-xlsr-53 モデルを微調整したものです。微調整は 2023 年 7 月に、アイスランドのレイキャビク大学の Language and Voice Laboratory のサーバー上で、Carlos Daniel Hernández Mena によって行われました。微調整には 967 時間分のアイスランド語データが使用され、以前のモデル wav2vec2-large-xlsr-53-icelandic-ep10-1000h とは異なる訓練データが使用されています。

📄 ライセンス

このモデルは CC BY 4.0 ライセンスで提供されています。

📖 引用情報

これらのモデルをベースに研究結果を公開する際には、以下の引用を参照してください。

@inproceedings{mena2024samromur,
  title={Samr{\'o}mur Millj{\'o}n: An ASR Corpus of One Million Verified Read Prompts in Icelandic},
  author={Mena, Carlos Daniel Hernandez and Gunnarsson, {\TH}orsteinn Da{\dh}i and Gu{\dh}nason, J{\'o}n},
  booktitle={Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
  pages={14305--14312},
  year={2024}
}

🙏 謝辞

このモデルの訓練を可能にするための計算リソースを提供してくれた、Language and Voice Lab の責任者である Jón Guðnason に感謝します。

また、アイスランド教育科学文化部によって資金提供された「Language Technology Programme for Icelandic 2019 - 2023」（Almannarómur によって管理および調整されています）に感謝します。このモデルは、このプロジェクトで収集されたリソースの付随的な成果物です。

特に、このモデルの訓練用サーバーの設定を行ってくれた Björn Ingi Stefánsson に感謝します。