模型概述
模型特點
模型能力
使用案例
🚀 whisper-large-v3-ca-3catparla
本模型是一個適用於加泰羅尼亞語自動語音識別的聲學模型,它基於大量加泰羅尼亞語數據微調而來,能將加泰羅尼亞語音頻轉錄為無標點的純文本,為加泰羅尼亞語的語音處理提供了有力支持。
🚀 快速開始
安裝
若要使用此模型,你需要安裝 datasets 和 transformers:
- 創建虛擬環境:
python -m venv /path/to/venv
- 激活環境:
source /path/to/venv/bin/activate
- 安裝模塊:
pip install datasets transformers
推理
若要使用此模型轉錄加泰羅尼亞語音頻,可參考以下示例:
# 安裝先決條件
pip install torch
pip install datasets
pip install 'transformers[torch]'
pip install evaluate
pip install jiwer
# 此代碼在GPU上運行
# 注意:load_metric 不再是 datasets 的一部分。
# 你必須移除它並使用 evaluate 的 load 代替。
# (2024年11月說明)
import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor
# 加載處理器和模型。
MODEL_NAME="projecte-aina/whisper-large-v3-ca-3catparla"
processor = WhisperProcessor.from_pretrained(MODEL_NAME)
model = WhisperForConditionalGeneration.from_pretrained(MODEL_NAME).to("cuda")
# 加載數據集
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("projecte-aina/3catparla_asr",split='test')
# 下采樣到16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))
# 處理數據集
def map_to_pred(batch):
audio = batch["audio"]
input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features
batch["reference"] = processor.tokenizer._normalize(batch['normalized_text'])
with torch.no_grad():
predicted_ids = model.generate(input_features.to("cuda"))[0]
transcription = processor.decode(predicted_ids)
batch["prediction"] = processor.tokenizer._normalize(transcription)
return batch
# 進行評估
result = ds.map(map_to_pred)
# 計算整體WER
from evaluate import load
wer = load("wer")
WER=100 * wer.compute(references=result["reference"], predictions=result["prediction"])
print(WER)
測試結果:0.96
若要查看此代碼的更新且可用版本,請訪問我們的 Notebook
✨ 主要特性
- 語言適配:專門針對加泰羅尼亞語進行優化,適用於加泰羅尼亞語的自動語音識別任務。
- 模型微調:基於 "openai/whisper-large-v3" 模型進行微調,結合了710小時的加泰羅尼亞語數據,提升了模型在加泰羅尼亞語上的性能。
📦 安裝指南
環境準備
- 創建虛擬環境:
python -m venv /path/to/venv
- 激活環境:
source /path/to/venv/bin/activate
模塊安裝
pip install datasets transformers
💻 使用示例
基礎用法
# 此代碼在GPU上運行
# 注意:load_metric 不再是 datasets 的一部分。
# 你必須移除它並使用 evaluate 的 load 代替。
# (2024年11月說明)
import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor
# 加載處理器和模型。
MODEL_NAME="projecte-aina/whisper-large-v3-ca-3catparla"
processor = WhisperProcessor.from_pretrained(MODEL_NAME)
model = WhisperForConditionalGeneration.from_pretrained(MODEL_NAME).to("cuda")
# 加載數據集
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("projecte-aina/3catparla_asr",split='test')
# 下采樣到16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))
# 處理數據集
def map_to_pred(batch):
audio = batch["audio"]
input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features
batch["reference"] = processor.tokenizer._normalize(batch['normalized_text'])
with torch.no_grad():
predicted_ids = model.generate(input_features.to("cuda"))[0]
transcription = processor.decode(predicted_ids)
batch["prediction"] = processor.tokenizer._normalize(transcription)
return batch
# 進行評估
result = ds.map(map_to_pred)
# 計算整體WER
from evaluate import load
wer = load("wer")
WER=100 * wer.compute(references=result["reference"], predictions=result["prediction"])
print(WER)
📚 詳細文檔
模型描述
"whisper-large-v3-ca-3catparla" 是一個適用於加泰羅尼亞語自動語音識別的聲學模型。它是對 "openai/whisper-large-v3" 模型進行微調的結果,使用了來自西班牙巴塞羅那 Projecte AINA 發佈的710小時加泰羅尼亞語數據。
預期用途和限制
此模型可用於加泰羅尼亞語的自動語音識別(ASR)。該模型旨在將加泰羅尼亞語音頻文件轉錄為無標點的純文本。
訓練詳情
訓練數據
創建此模型所使用的特定數據集名為 "3CatParla"。
訓練過程
此模型是按照 Hugging Face 提供的 教程 對 "openai/whisper-large-v3" 模型進行微調的結果。
訓練超參數
屬性 | 詳情 |
---|---|
語言 | 加泰羅尼亞語 |
訓練音頻時長 | 710小時 |
學習率 | 1.95e-07 |
採樣率 | 16000 |
訓練批次大小 | 32(x4 GPUs) |
梯度累積步數 | 1 |
評估批次大小 | 32 |
保存總數限制 | 3 |
最大步數 | 19842 |
熱身步數 | 1984 |
評估步數 | 3307 |
保存步數 | 3307 |
洗牌緩衝區大小 | 480 |
引用
如果此模型對你的研究有幫助,請引用以下工作:
@inproceedings{hernandez20243catparla,
title={3CatParla: A New Open-Source Corpus of Broadcast TV in Catalan for Automatic Speech Recognition},
author={Hern{\'a}ndez Mena, Carlos Daniel and Armentano Oller, Carme and Solito, Sarah and K{\"u}lebi, Baybars},
booktitle={Proc. IberSPEECH 2024},
pages={176--180},
year={2024}
}
附加信息
作者
微調過程於2024年7月由 Carlos Daniel Hernández Mena 在 巴塞羅那超級計算中心 的 語言技術部門 完成。
聯繫信息
如需更多信息,請發送電子郵件至 langtech@bsc.es。
版權信息
版權所有 (c) 2024 巴塞羅那超級計算中心語言技術部門。
許可證
資助信息
這項工作由加泰羅尼亞政府通過 Aina項目 推動和資助。模型的訓練得益於 巴塞羅那超級計算中心 通過 MareNostrum 5 提供的計算時間。
論文
PDF:3CatParla: A New Open-Source Corpus of Broadcast TV in Catalan for Automatic Speech Recognition
📄 許可證
本項目採用 Apache-2.0 許可證。



