模型简介
模型特点
模型能力
使用案例
🚀 whisper-large-v3-ca-3catparla
本模型是一个适用于加泰罗尼亚语自动语音识别的声学模型,它基于大量加泰罗尼亚语数据微调而来,能将加泰罗尼亚语音频转录为无标点的纯文本,为加泰罗尼亚语的语音处理提供了有力支持。
🚀 快速开始
安装
若要使用此模型,你需要安装 datasets 和 transformers:
- 创建虚拟环境:
python -m venv /path/to/venv
- 激活环境:
source /path/to/venv/bin/activate
- 安装模块:
pip install datasets transformers
推理
若要使用此模型转录加泰罗尼亚语音频,可参考以下示例:
# 安装先决条件
pip install torch
pip install datasets
pip install 'transformers[torch]'
pip install evaluate
pip install jiwer
# 此代码在GPU上运行
# 注意:load_metric 不再是 datasets 的一部分。
# 你必须移除它并使用 evaluate 的 load 代替。
# (2024年11月说明)
import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor
# 加载处理器和模型。
MODEL_NAME="projecte-aina/whisper-large-v3-ca-3catparla"
processor = WhisperProcessor.from_pretrained(MODEL_NAME)
model = WhisperForConditionalGeneration.from_pretrained(MODEL_NAME).to("cuda")
# 加载数据集
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("projecte-aina/3catparla_asr",split='test')
# 下采样到16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))
# 处理数据集
def map_to_pred(batch):
audio = batch["audio"]
input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features
batch["reference"] = processor.tokenizer._normalize(batch['normalized_text'])
with torch.no_grad():
predicted_ids = model.generate(input_features.to("cuda"))[0]
transcription = processor.decode(predicted_ids)
batch["prediction"] = processor.tokenizer._normalize(transcription)
return batch
# 进行评估
result = ds.map(map_to_pred)
# 计算整体WER
from evaluate import load
wer = load("wer")
WER=100 * wer.compute(references=result["reference"], predictions=result["prediction"])
print(WER)
测试结果:0.96
若要查看此代码的更新且可用版本,请访问我们的 Notebook
✨ 主要特性
- 语言适配:专门针对加泰罗尼亚语进行优化,适用于加泰罗尼亚语的自动语音识别任务。
- 模型微调:基于 "openai/whisper-large-v3" 模型进行微调,结合了710小时的加泰罗尼亚语数据,提升了模型在加泰罗尼亚语上的性能。
📦 安装指南
环境准备
- 创建虚拟环境:
python -m venv /path/to/venv
- 激活环境:
source /path/to/venv/bin/activate
模块安装
pip install datasets transformers
💻 使用示例
基础用法
# 此代码在GPU上运行
# 注意:load_metric 不再是 datasets 的一部分。
# 你必须移除它并使用 evaluate 的 load 代替。
# (2024年11月说明)
import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor
# 加载处理器和模型。
MODEL_NAME="projecte-aina/whisper-large-v3-ca-3catparla"
processor = WhisperProcessor.from_pretrained(MODEL_NAME)
model = WhisperForConditionalGeneration.from_pretrained(MODEL_NAME).to("cuda")
# 加载数据集
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("projecte-aina/3catparla_asr",split='test')
# 下采样到16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))
# 处理数据集
def map_to_pred(batch):
audio = batch["audio"]
input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features
batch["reference"] = processor.tokenizer._normalize(batch['normalized_text'])
with torch.no_grad():
predicted_ids = model.generate(input_features.to("cuda"))[0]
transcription = processor.decode(predicted_ids)
batch["prediction"] = processor.tokenizer._normalize(transcription)
return batch
# 进行评估
result = ds.map(map_to_pred)
# 计算整体WER
from evaluate import load
wer = load("wer")
WER=100 * wer.compute(references=result["reference"], predictions=result["prediction"])
print(WER)
📚 详细文档
模型描述
"whisper-large-v3-ca-3catparla" 是一个适用于加泰罗尼亚语自动语音识别的声学模型。它是对 "openai/whisper-large-v3" 模型进行微调的结果,使用了来自西班牙巴塞罗那 Projecte AINA 发布的710小时加泰罗尼亚语数据。
预期用途和限制
此模型可用于加泰罗尼亚语的自动语音识别(ASR)。该模型旨在将加泰罗尼亚语音频文件转录为无标点的纯文本。
训练详情
训练数据
创建此模型所使用的特定数据集名为 "3CatParla"。
训练过程
此模型是按照 Hugging Face 提供的 教程 对 "openai/whisper-large-v3" 模型进行微调的结果。
训练超参数
属性 | 详情 |
---|---|
语言 | 加泰罗尼亚语 |
训练音频时长 | 710小时 |
学习率 | 1.95e-07 |
采样率 | 16000 |
训练批次大小 | 32(x4 GPUs) |
梯度累积步数 | 1 |
评估批次大小 | 32 |
保存总数限制 | 3 |
最大步数 | 19842 |
热身步数 | 1984 |
评估步数 | 3307 |
保存步数 | 3307 |
洗牌缓冲区大小 | 480 |
引用
如果此模型对你的研究有帮助,请引用以下工作:
@inproceedings{hernandez20243catparla,
title={3CatParla: A New Open-Source Corpus of Broadcast TV in Catalan for Automatic Speech Recognition},
author={Hern{\'a}ndez Mena, Carlos Daniel and Armentano Oller, Carme and Solito, Sarah and K{\"u}lebi, Baybars},
booktitle={Proc. IberSPEECH 2024},
pages={176--180},
year={2024}
}
附加信息
作者
微调过程于2024年7月由 Carlos Daniel Hernández Mena 在 巴塞罗那超级计算中心 的 语言技术部门 完成。
联系信息
如需更多信息,请发送电子邮件至 langtech@bsc.es。
版权信息
版权所有 (c) 2024 巴塞罗那超级计算中心语言技术部门。
许可证
资助信息
这项工作由加泰罗尼亚政府通过 Aina项目 推动和资助。模型的训练得益于 巴塞罗那超级计算中心 通过 MareNostrum 5 提供的计算时间。
论文
PDF:3CatParla: A New Open-Source Corpus of Broadcast TV in Catalan for Automatic Speech Recognition
📄 许可证
本项目采用 Apache-2.0 许可证。



