whisper-large-v3-ca-3catparla开源语音识别模型 - 精准识别加泰罗尼亚语语音

首页

Whisper Large V3 Ca 3catparla

由 projecte-aina 开发

这是一个针对加泰罗尼亚语优化的自动语音识别模型，基于OpenAI的Whisper-large-v3微调，由巴塞罗那超级计算中心开发。

语音识别

Transformers

其他开源协议:Apache-2.0 #加泰罗尼亚语语音识别 #低WER转录 #广播电视音频处理

下载量 122

发布时间 : 8/5/2024

模型简介

该模型专门用于加泰罗尼亚语的自动语音识别任务，能够将加泰罗尼亚语音频转换为无标点的纯文本。

模型特点

高精度加泰罗尼亚语识别

在3CatParla测试集上达到0.96的WER（词错误率）

多方言支持

能够识别加泰罗尼亚语的不同方言变体

大规模训练数据

使用710小时的加泰罗尼亚语数据进行微调

模型能力

加泰罗尼亚语音频转录

自动语音识别

支持16kHz采样率音频处理

使用案例

语音转录

广播电视内容转录

将加泰罗尼亚语广播电视节目自动转录为文本

在3CatParla测试集上WER为0.96

方言语音识别

识别不同地区的加泰罗尼亚语方言

在不同方言测试集上WER在7.88-12.25之间

🚀 whisper-large-v3-ca-3catparla

本模型是一个适用于加泰罗尼亚语自动语音识别的声学模型，它基于大量加泰罗尼亚语数据微调而来，能将加泰罗尼亚语音频转录为无标点的纯文本，为加泰罗尼亚语的语音处理提供了有力支持。

🚀 快速开始

安装

若要使用此模型，你需要安装 datasets 和 transformers：

创建虚拟环境：

python -m venv /path/to/venv

激活环境：

source /path/to/venv/bin/activate

安装模块：

pip install datasets transformers

推理

若要使用此模型转录加泰罗尼亚语音频，可参考以下示例：

# 安装先决条件
pip install torch
pip install datasets
pip install 'transformers[torch]'
pip install evaluate
pip install jiwer

# 此代码在GPU上运行

# 注意：load_metric 不再是 datasets 的一部分。
# 你必须移除它并使用 evaluate 的 load 代替。
# （2024年11月说明）

import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor

# 加载处理器和模型。
MODEL_NAME="projecte-aina/whisper-large-v3-ca-3catparla"
processor = WhisperProcessor.from_pretrained(MODEL_NAME)
model = WhisperForConditionalGeneration.from_pretrained(MODEL_NAME).to("cuda")

# 加载数据集
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("projecte-aina/3catparla_asr",split='test')

# 下采样到16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))

# 处理数据集
def map_to_pred(batch):
    audio = batch["audio"]
    input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features
    batch["reference"] = processor.tokenizer._normalize(batch['normalized_text'])

    with torch.no_grad():
        predicted_ids = model.generate(input_features.to("cuda"))[0]
    
    transcription = processor.decode(predicted_ids)
    batch["prediction"] = processor.tokenizer._normalize(transcription)
    
    return batch

# 进行评估
result = ds.map(map_to_pred)

# 计算整体WER
from evaluate import load

wer = load("wer")
WER=100 * wer.compute(references=result["reference"], predictions=result["prediction"])
print(WER)

测试结果：0.96

若要查看此代码的更新且可用版本，请访问我们的 Notebook

✨ 主要特性

语言适配：专门针对加泰罗尼亚语进行优化，适用于加泰罗尼亚语的自动语音识别任务。
模型微调：基于 "openai/whisper-large-v3" 模型进行微调，结合了710小时的加泰罗尼亚语数据，提升了模型在加泰罗尼亚语上的性能。

📦 安装指南

环境准备

创建虚拟环境：

python -m venv /path/to/venv

激活环境：

source /path/to/venv/bin/activate

模块安装

pip install datasets transformers

💻 使用示例

基础用法

# 此代码在GPU上运行

# 注意：load_metric 不再是 datasets 的一部分。
# 你必须移除它并使用 evaluate 的 load 代替。
# （2024年11月说明）

import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor

# 加载处理器和模型。
MODEL_NAME="projecte-aina/whisper-large-v3-ca-3catparla"
processor = WhisperProcessor.from_pretrained(MODEL_NAME)
model = WhisperForConditionalGeneration.from_pretrained(MODEL_NAME).to("cuda")

# 加载数据集
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("projecte-aina/3catparla_asr",split='test')

# 下采样到16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))

# 处理数据集
def map_to_pred(batch):
    audio = batch["audio"]
    input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features
    batch["reference"] = processor.tokenizer._normalize(batch['normalized_text'])

    with torch.no_grad():
        predicted_ids = model.generate(input_features.to("cuda"))[0]
    
    transcription = processor.decode(predicted_ids)
    batch["prediction"] = processor.tokenizer._normalize(transcription)
    
    return batch

# 进行评估
result = ds.map(map_to_pred)

# 计算整体WER
from evaluate import load

wer = load("wer")
WER=100 * wer.compute(references=result["reference"], predictions=result["prediction"])
print(WER)

📚 详细文档

模型描述

"whisper-large-v3-ca-3catparla" 是一个适用于加泰罗尼亚语自动语音识别的声学模型。它是对 "openai/whisper-large-v3" 模型进行微调的结果，使用了来自西班牙巴塞罗那 Projecte AINA 发布的710小时加泰罗尼亚语数据。

预期用途和限制

此模型可用于加泰罗尼亚语的自动语音识别（ASR）。该模型旨在将加泰罗尼亚语音频文件转录为无标点的纯文本。

训练详情

训练数据

创建此模型所使用的特定数据集名为 "3CatParla"。

训练过程

此模型是按照 Hugging Face 提供的教程对 "openai/whisper-large-v3" 模型进行微调的结果。

训练超参数

属性	详情
语言	加泰罗尼亚语
训练音频时长	710小时
学习率	1.95e-07
采样率	16000
训练批次大小	32（x4 GPUs）
梯度累积步数	1
评估批次大小	32
保存总数限制	3
最大步数	19842
热身步数	1984
评估步数	3307
保存步数	3307
洗牌缓冲区大小	480

引用

如果此模型对你的研究有帮助，请引用以下工作：

@inproceedings{hernandez20243catparla,
  title={3CatParla: A New Open-Source Corpus of Broadcast TV in Catalan for Automatic Speech Recognition},
  author={Hern{\'a}ndez Mena, Carlos Daniel and Armentano Oller, Carme and Solito, Sarah and K{\"u}lebi, Baybars},
  booktitle={Proc. IberSPEECH 2024},
  pages={176--180},
  year={2024}
}