🚀 wav2vec2-large-xlsr-53-icelandic-ep30-967h
“wav2vec2-large-xlsr-53-icelandic-ep30-967h” 是一个适用于冰岛语自动语音识别的声学模型。它是通过 Language and Voice Laboratory 借助 Samrómur 平台收集的 967 小时冰岛语数据,对模型 facebook/wav2vec2-large-xlsr-53 进行 30 个周期微调的成果。
✨ 主要特性
📦 安装指南
文档未提供安装步骤,跳过该章节。
💻 使用示例
基础用法
import torch
from transformers import Wav2Vec2Processor
from transformers import Wav2Vec2ForCTC
MODEL_NAME="language-and-voice-lab/wav2vec2-large-xlsr-53-icelandic-ep30-967h"
processor = Wav2Vec2Processor.from_pretrained(MODEL_NAME)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_NAME)
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("language-and-voice-lab/samromur_children", split="test")
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))
def prepare_dataset(batch):
audio = batch["audio"]
batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"]).input_values[0]
with processor.as_target_processor():
batch["labels"] = processor(batch["normalized_text"]).input_ids
return batch
ds = ds.map(prepare_dataset, remove_columns=ds.column_names,num_proc=1)
import numpy as np
wer_metric = load_metric("wer")
def compute_metrics(pred):
pred_logits = pred.predictions
pred_ids = np.argmax(pred_logits, axis=-1)
pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id
pred_str = processor.batch_decode(pred_ids)
label_str = processor.batch_decode(pred.label_ids, group_tokens=False)
wer = wer_metric.compute(predictions=pred_str, references=label_str)
return {"wer": wer}
model = model.to(torch.device("cuda"))
def map_to_result(batch):
with torch.no_grad():
input_values = torch.tensor(batch["input_values"], device="cuda").unsqueeze(0)
logits = model(input_values).logits
pred_ids = torch.argmax(logits, dim=-1)
batch["pred_str"] = processor.batch_decode(pred_ids)[0]
batch["sentence"] = processor.decode(batch["labels"], group_tokens=False)
return batch
results = ds.map(map_to_result,remove_columns=ds.column_names)
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results["pred_str"], references=results["sentence"])))
高级用法
文档未提供高级用法代码,跳过该部分。
📚 详细文档
模型信息
评估结果
数据集 |
任务 |
指标 |
值 |
Samrómur (Test) |
自动语音识别 |
WER |
7.698 |
Samrómur (Dev) |
自动语音识别 |
WER |
6.786 |
Samrómur Children (Test) |
自动语音识别 |
WER |
6.467 |
Samrómur Children (Dev) |
自动语音识别 |
WER |
4.234 |
Malrómur (Test) |
自动语音识别 |
WER |
6.631 |
Malrómur (Dev) |
自动语音识别 |
WER |
5.836 |
Althingi (Test) |
自动语音识别 |
WER |
17.904 |
Althingi (Dev) |
自动语音识别 |
WER |
17.931 |
测试结果
测试结果:0.076
🔧 技术细节
该模型是对 facebook/wav2vec2-large-xlsr-53 模型进行微调得到的。微调过程于 2023 年 7 月在冰岛雷克雅未克大学的 Language and Voice Laboratory 服务器上,由 Carlos Daniel Hernández Mena 完成。微调使用了 967 小时的冰岛语数据,且与之前的模型 wav2vec2-large-xlsr-53-icelandic-ep10-1000h 使用了不同的训练数据。
📄 许可证
本模型使用的许可证为 CC BY 4.0。
📖 引用信息
当基于这些模型发布研究结果时,请参考以下引用:
@inproceedings{mena2024samromur,
title={Samr{\'o}mur Millj{\'o}n: An ASR Corpus of One Million Verified Read Prompts in Icelandic},
author={Mena, Carlos Daniel Hernandez and Gunnarsson, {\TH}orsteinn Da{\dh}i and Gu{\dh}nason, J{\'o}n},
booktitle={Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
pages={14305--14312},
year={2024}
}
🙏 致谢
感谢 Language and Voice Lab 负责人 Jón Guðnason 提供计算资源,使该模型的训练成为可能。
同时感谢由 Almannarómur 管理和协调的 “Language Technology Programme for Icelandic 2019 - 2023”,该项目由冰岛教育、科学和文化部资助。本模型是该项目所收集资源的意外成果。
特别感谢 Björn Ingi Stefánsson 为训练该模型的服务器进行配置。