Wav2vec2 Large Xlsr 53 Spanish Ep5 944h
適用於西班牙語自動語音識別的聲學模型,基於facebook/wav2vec2-large-xlsr-53微調5個週期,使用約944小時西班牙語數據。
下載量 111
發布時間 : 12/1/2022
模型概述
該模型是專門為西班牙語語音識別設計的聲學模型,通過在大規模西班牙語數據集上微調得到,適用於多種西班牙語語音識別場景。
模型特點
多數據集訓練
使用了來自CIEMPIESS-UNAM項目和其他公共存儲庫的約944小時西班牙語數據進行訓練
低WER
在多個測試集上表現出色,如Mozilla Common Voice 10.0測試集WER為9.20%
方言覆蓋
訓練數據包含多種西班牙語方言,如墨西哥、智利、哥倫比亞、秘魯、阿根廷和波多黎各等地的西班牙語
模型能力
西班牙語語音識別
多種方言識別
高精度轉錄
使用案例
語音轉錄
廣播新聞轉錄
用於轉錄西班牙語廣播新聞內容
在HUB4NE測試集上WER為7.48%
電話語音轉錄
用於轉錄電話對話內容
在CALLHOME測試集上WER為39.12%
語音助手
西班牙語語音指令識別
用於西班牙語語音助手中的指令識別
🚀 wav2vec2-large-xlsr-53-spanish-ep5-944h
該模型是適用於西班牙語自動語音識別的聲學模型。它通過對 "facebook/wav2vec2-large-xlsr-53" 模型進行 5 個週期的微調得到,使用了自 2012 年以來由 CIEMPIESS - UNAM 項目 收集或開發的約 944 小時西班牙語數據。大部分數據可在 CIEMPIESS - UNAM 項目主頁 http://www.ciempiess.org/ 上獲取,其餘數據可在 LDC 或 OpenSLR 等公共資源庫中找到。
✨ 主要特性
- 適用場景:適用於西班牙語的自動語音識別任務。
- 數據來源廣泛:使用了多個不同來源的西班牙語語料庫進行微調。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
import torch
from transformers import Wav2Vec2Processor
from transformers import Wav2Vec2ForCTC
#Load the processor and model.
MODEL_NAME="carlosdanielhernandezmena/wav2vec2-large-xlsr-53-spanish-ep5-944h"
processor = Wav2Vec2Processor.from_pretrained(MODEL_NAME)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_NAME)
#Load the dataset
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("ciempiess/ciempiess_test", split="test")
#Downsample to 16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))
#Process the dataset
def prepare_dataset(batch):
audio = batch["audio"]
#Batched output is "un-batched" to ensure mapping is correct
batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"]).input_values[0]
with processor.as_target_processor():
batch["labels"] = processor(batch["normalized_text"]).input_ids
return batch
ds = ds.map(prepare_dataset, remove_columns=ds.column_names,num_proc=1)
#Define the evaluation metric
import numpy as np
wer_metric = load_metric("wer")
def compute_metrics(pred):
pred_logits = pred.predictions
pred_ids = np.argmax(pred_logits, axis=-1)
pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id
pred_str = processor.batch_decode(pred_ids)
#We do not want to group tokens when computing the metrics
label_str = processor.batch_decode(pred.label_ids, group_tokens=False)
wer = wer_metric.compute(predictions=pred_str, references=label_str)
return {"wer": wer}
#Do the evaluation (with batch_size=1)
model = model.to(torch.device("cuda"))
def map_to_result(batch):
with torch.no_grad():
input_values = torch.tensor(batch["input_values"], device="cuda").unsqueeze(0)
logits = model(input_values).logits
pred_ids = torch.argmax(logits, dim=-1)
batch["pred_str"] = processor.batch_decode(pred_ids)[0]
batch["sentence"] = processor.decode(batch["labels"], group_tokens=False)
return batch
results = ds.map(map_to_result,remove_columns=ds.column_names)
#Compute the overall WER now.
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results["pred_str"], references=results["sentence"])))
測試結果:0.112
📚 詳細文檔
模型使用的數據集
該模型微調使用的具體語料庫列表如下:
- CIEMPIESS - LIGHT (18 小時 25 分鐘)
- CIEMPIESS - BALANCE (18 小時 20 分鐘)
- CIEMPIESS - FEM (13 小時 54 分鐘)
- CHM150 (1 小時 38 分鐘)
- TEDX_SPANISH (24 小時 29 分鐘)
- LIBRIVOX_SPANISH (73 小時 01 分鐘)
- WIKIPEDIA_SPANISH (25 小時 37 分鐘)
- VOXFORGE_SPANISH (49 小時 42 分鐘)
- MOZILLA COMMON VOICE 10.0 (320 小時 22 分鐘)
- HEROICO (16 小時 33 分鐘)
- LATINO - 40 (6 小時 48 分鐘)
- CALLHOME_SPANISH (13 小時 22 分鐘)
- HUB4NE_SPANISH (31 小時 41 分鐘)
- FISHER_SPANISH (127 小時 22 分鐘)
- 智利西班牙語語音數據集 (7 小時 08 分鐘)
- 哥倫比亞西班牙語語音數據集 (7 小時 34 分鐘)
- 秘魯西班牙語語音數據集 (9 小時 13 分鐘)
- 阿根廷西班牙語語音數據集 (8 小時 01 分鐘)
- 波多黎各西班牙語語音數據集 (1 小時 00 分鐘)
- MediaSpeech 西班牙語 (10 小時 00 分鐘)
- [DIMEX100 - LIGHT (6 小時 09 分鐘)](https://turing.iimas.unam.mx/~luis/DIME/CORPUS - DIMEX.html)
- [DIMEX100 - NIÑOS (08 小時 09 分鐘)](https://turing.iimas.unam.mx/~luis/DIME/CORPUS - DIMEX.html)
- [GOLEM - UNIVERSUM (00 小時 10 分鐘)](https://turing.iimas.unam.mx/~luis/DIME/CORPUS - DIMEX.html)
- GLISSANDO (6 小時 40 分鐘)
- TELE_con_CIENCIA (28 小時 16 分鐘) 未發佈材料
- 不可共享材料 (118 小時 22 分鐘) 不可共享
微調信息
微調過程於 2022 年 11 月在冰島雷克雅未克大學的語言與語音實驗室 (https://lvl.ru.is/) 的服務器上由 Carlos Daniel Hernández Mena 完成。
評估結果
任務 | 數據集名稱 | 數據集類型 | 劃分 | 語言 | 指標 | 值 |
---|---|---|---|---|---|---|
自動語音識別 | Mozilla Common Voice 10.0 (Test) | mozilla - foundation/common_voice_10_0 | test | 西班牙語 | WER | 9.20 |
自動語音識別 | Mozilla Common Voice 10.0 (Dev) | mozilla - foundation/common_voice_10_0 | validation | 西班牙語 | WER | 8.02 |
自動語音識別 | CIEMPIESS - TEST | ciempiess/ciempiess_test | test | 西班牙語 | WER | 11.17 |
自動語音識別 | 1997 Spanish Broadcast News Speech (HUB4 - NE) | HUB4NE_LDC98S74 | test | 西班牙語 | WER | 7.48 |
自動語音識別 | CALLHOME Spanish Speech (Test) | callhome_LDC96S35 | test | 西班牙語 | WER | 39.12 |
自動語音識別 | CALLHOME Spanish Speech (Dev) | callhome_LDC96S35 | validation | 西班牙語 | WER | 40.39 |
📄 許可證
本模型使用的許可證為 CC - BY - 4.0。
📖 BibTeX 引用信息
在發佈基於這些模型的研究成果時,請參考以下引用:
@misc{mena2022xlrs53spanish,
title={Acoustic Model in Spanish: wav2vec2-large-xlsr-53-spanish-ep5-944h.},
author={Hernandez Mena, Carlos Daniel},
url={https://huggingface.co/carlosdanielhernandezmena/wav2vec2-large-xlsr-53-spanish-ep5-944h},
year={2022}
}
🙏 致謝
作者感謝墨西哥國立自治大學 工程學院 (FI) 的社會服務項目 ["Desarrollo de Tecnologías del Habla"](http://profesores.fi - b.unam.mx/carlos_mena/servicio.html),也感謝參與該社會服務項目的學生們的辛勤工作。
特別感謝語言與語音實驗室負責人 Jón Guðnason 提供計算資源,使該模型得以實現。作者還感謝由 Almannarómur 管理和協調、冰島教育、科學與文化部資助的 "2019 - 2023 年冰島語言技術計劃"。
Voice Activity Detection
MIT
基於pyannote.audio 2.1版本的語音活動檢測模型,用於識別音頻中的語音活動時間段
語音識別
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
這是一個針對葡萄牙語語音識別任務微調的XLSR-53大模型,基於Common Voice 6.1數據集訓練,支持葡萄牙語語音轉文本。
語音識別 其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
語音識別 支持多種語言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,經過超過500萬小時標記數據的訓練,在零樣本設置下展現出強大的泛化能力。
語音識別
Transformers 支持多種語言

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的俄語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的中文語音識別模型,支持16kHz採樣率的語音輸入。
語音識別 中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型,在Common Voice和CSS10數據集上訓練,支持16kHz音頻輸入。
語音識別 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的日語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 日語
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基於Hugging Face預訓練模型的文本與音頻強制對齊工具,支持多種語言,內存效率高
語音識別
Transformers 支持多種語言

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的阿拉伯語語音識別模型,在Common Voice和阿拉伯語語音語料庫上訓練
語音識別 阿拉伯語
W
jonatasgrosman
2.3M
37
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98