🚀 Wav2Vec2-Base-VoxPopuli-Finetuned
本项目基于 Facebook的Wav2Vec2 基础模型,该模型在 VoxPopuli语料库 的10K无标签子集上进行预训练,并在克罗地亚语(hr)的转录数据上进行微调(更多信息请参考论文中的表1)。
🚀 快速开始
模型信息
属性 |
详情 |
模型类型 |
基于Wav2Vec2的自动语音识别模型 |
训练数据 |
在VoxPopuli语料库的10K无标签子集上预训练,在克罗地亚语转录数据上微调 |
许可证 |
CC BY-NC 4.0 |
相关论文
论文:VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation
作者:来自 Facebook AI 的 Changhan Wang、Morgane Riviere、Ann Lee、Anne Wu、Chaitanya Talnikar、Daniel Haziza、Mary Williamson、Juan Pino、Emmanuel Dupoux
更多信息请访问官方网站 here
💻 使用示例
基础用法
以下展示了如何在 Common Voice数据集 的样本上使用该模型进行推理:
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-hr")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-hr")
ds = load_dataset("common_voice", "hr", split="validation[:1%]")
common_voice_sample_rate = 48000
target_sample_rate = 16000
resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)
def map_to_array(batch):
speech, _ = torchaudio.load(batch["path"])
speech = resampler(speech)
batch["speech"] = speech[0]
return batch
ds = ds.map(map_to_array)
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)
print(processor.batch_decode(predicted_ids))
📄 许可证
本项目采用CC BY-NC 4.0许可证。