🚀 Wav2Vec2-Base-VoxPopuli-Finetuned
該項目基於Facebook的Wav2Vec2基礎模型,此基礎模型在VoxPopuli語料庫的10K無標籤子集上進行預訓練,並在斯洛伐克語(sk)的轉錄數據上進行微調(更多信息請參考論文中的表1)。本項目可用於音頻自動語音識別任務,為語音處理領域提供了有力支持。
✨ 主要特性
- 基於預訓練的Wav2Vec2模型,在VoxPopuli語料庫上進行預訓練,具有良好的語音特徵學習能力。
- 在斯洛伐克語轉錄數據上進行微調,對斯洛伐克語語音識別有較好的效果。
📦 安裝指南
文檔中未提及具體安裝步驟,暫不展示。
💻 使用示例
基礎用法
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-sk")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-sk")
ds = load_dataset("common_voice", "sk", split="validation[:1%]")
common_voice_sample_rate = 48000
target_sample_rate = 16000
resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)
def map_to_array(batch):
speech, _ = torchaudio.load(batch["path"])
speech = resampler(speech)
batch["speech"] = speech[0]
return batch
ds = ds.map(map_to_array)
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)
print(processor.batch_decode(predicted_ids))
高級用法
文檔中未提及高級用法相關代碼,暫不展示。
📚 詳細文檔
論文:VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation
作者:來自 Facebook AI 的 Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux
更多信息請參考官方網站 here
📄 許可證
本項目採用CC BY-NC 4.0許可證。
屬性 |
詳情 |
模型類型 |
基於Wav2Vec2的自動語音識別模型 |
訓練數據 |
VoxPopuli語料庫的10K無標籤子集及斯洛伐克語轉錄數據 |