🚀 wav2vec2-large-xlsr-53-icelandic-ep30-967h
“wav2vec2-large-xlsr-53-icelandic-ep30-967h” は、アイスランド語の自動音声認識に適した音響モデルです。このモデルは、Language and Voice Laboratory が Samrómur プラットフォームを通じて収集した 967 時間分のアイスランド語データを使用し、facebook/wav2vec2-large-xlsr-53 モデルを 30 エポックで微調整した成果物です。
✨ 主な機能
- アイスランド語の自動音声認識タスクに特化して微調整されています。
- 特定のアイスランド語コーパス Samrómur Milljón を使用して訓練されています。
- 以前のモデルとは異なる訓練データを使用しています。
💻 使用例
基本的な使用法
import torch
from transformers import Wav2Vec2Processor
from transformers import Wav2Vec2ForCTC
MODEL_NAME="language-and-voice-lab/wav2vec2-large-xlsr-53-icelandic-ep30-967h"
processor = Wav2Vec2Processor.from_pretrained(MODEL_NAME)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_NAME)
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("language-and-voice-lab/samromur_children", split="test")
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))
def prepare_dataset(batch):
audio = batch["audio"]
batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"]).input_values[0]
with processor.as_target_processor():
batch["labels"] = processor(batch["normalized_text"]).input_ids
return batch
ds = ds.map(prepare_dataset, remove_columns=ds.column_names,num_proc=1)
import numpy as np
wer_metric = load_metric("wer")
def compute_metrics(pred):
pred_logits = pred.predictions
pred_ids = np.argmax(pred_logits, axis=-1)
pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id
pred_str = processor.batch_decode(pred_ids)
label_str = processor.batch_decode(pred.label_ids, group_tokens=False)
wer = wer_metric.compute(predictions=pred_str, references=label_str)
return {"wer": wer}
model = model.to(torch.device("cuda"))
def map_to_result(batch):
with torch.no_grad():
input_values = torch.tensor(batch["input_values"], device="cuda").unsqueeze(0)
logits = model(input_values).logits
pred_ids = torch.argmax(logits, dim=-1)
batch["pred_str"] = processor.batch_decode(pred_ids)[0]
batch["sentence"] = processor.decode(batch["labels"], group_tokens=False)
return batch
results = ds.map(map_to_result,remove_columns=ds.column_names)
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results["pred_str"], references=results["sentence"])))
📚 ドキュメント
モデル情報
評価結果
データセット |
タスク |
指標 |
値 |
Samrómur (Test) |
自動音声認識 |
WER |
7.698 |
Samrómur (Dev) |
自動音声認識 |
WER |
6.786 |
Samrómur Children (Test) |
自動音声認識 |
WER |
6.467 |
Samrómur Children (Dev) |
自動音声認識 |
WER |
4.234 |
Malrómur (Test) |
自動音声認識 |
WER |
6.631 |
Malrómur (Dev) |
自動音声認識 |
WER |
5.836 |
Althingi (Test) |
自動音声認識 |
WER |
17.904 |
Althingi (Dev) |
自動音声認識 |
WER |
17.931 |
テスト結果
テスト結果:0.076
🔧 技術詳細
このモデルは、facebook/wav2vec2-large-xlsr-53 モデルを微調整したものです。微調整は 2023 年 7 月に、アイスランドのレイキャビク大学の Language and Voice Laboratory のサーバー上で、Carlos Daniel Hernández Mena によって行われました。微調整には 967 時間分のアイスランド語データが使用され、以前のモデル wav2vec2-large-xlsr-53-icelandic-ep10-1000h とは異なる訓練データが使用されています。
📄 ライセンス
このモデルは CC BY 4.0 ライセンスで提供されています。
📖 引用情報
これらのモデルをベースに研究結果を公開する際には、以下の引用を参照してください。
@inproceedings{mena2024samromur,
title={Samr{\'o}mur Millj{\'o}n: An ASR Corpus of One Million Verified Read Prompts in Icelandic},
author={Mena, Carlos Daniel Hernandez and Gunnarsson, {\TH}orsteinn Da{\dh}i and Gu{\dh}nason, J{\'o}n},
booktitle={Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
pages={14305--14312},
year={2024}
}
🙏 謝辞
このモデルの訓練を可能にするための計算リソースを提供してくれた、Language and Voice Lab の責任者である Jón Guðnason に感謝します。
また、アイスランド教育科学文化部によって資金提供された「Language Technology Programme for Icelandic 2019 - 2023」(Almannarómur によって管理および調整されています)に感謝します。このモデルは、このプロジェクトで収集されたリソースの付随的な成果物です。
特に、このモデルの訓練用サーバーの設定を行ってくれた Björn Ingi Stefánsson に感謝します。