whisper-large-v3-ca-3catparla開源語音識別模型 - 精準識別加泰羅尼亞語語音

首頁

Whisper Large V3 Ca 3catparla

由projecte-aina開發

這是一個針對加泰羅尼亞語優化的自動語音識別模型，基於OpenAI的Whisper-large-v3微調，由巴塞羅那超級計算中心開發。

語音識別

Transformers

其他開源協議:Apache-2.0 #加泰羅尼亞語語音識別 #低WER轉錄 #廣播電視音頻處理

下載量 122

發布時間 : 8/5/2024

模型概述

該模型專門用於加泰羅尼亞語的自動語音識別任務，能夠將加泰羅尼亞語音頻轉換為無標點的純文本。

模型特點

高精度加泰羅尼亞語識別

在3CatParla測試集上達到0.96的WER（詞錯誤率）

多方言支持

能夠識別加泰羅尼亞語的不同方言變體

大規模訓練數據

使用710小時的加泰羅尼亞語數據進行微調

模型能力

加泰羅尼亞語音頻轉錄

自動語音識別

支持16kHz採樣率音頻處理

使用案例

語音轉錄

廣播電視內容轉錄

將加泰羅尼亞語廣播電視節目自動轉錄為文本

在3CatParla測試集上WER為0.96

方言語音識別

識別不同地區的加泰羅尼亞語方言

在不同方言測試集上WER在7.88-12.25之間

🚀 whisper-large-v3-ca-3catparla

本模型是一個適用於加泰羅尼亞語自動語音識別的聲學模型，它基於大量加泰羅尼亞語數據微調而來，能將加泰羅尼亞語音頻轉錄為無標點的純文本，為加泰羅尼亞語的語音處理提供了有力支持。

🚀 快速開始

安裝

若要使用此模型，你需要安裝 datasets 和 transformers：

創建虛擬環境：

python -m venv /path/to/venv

激活環境：

source /path/to/venv/bin/activate

安裝模塊：

pip install datasets transformers

推理

若要使用此模型轉錄加泰羅尼亞語音頻，可參考以下示例：

# 安裝先決條件
pip install torch
pip install datasets
pip install 'transformers[torch]'
pip install evaluate
pip install jiwer

# 此代碼在GPU上運行

# 注意：load_metric 不再是 datasets 的一部分。
# 你必須移除它並使用 evaluate 的 load 代替。
# （2024年11月說明）

import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor

# 加載處理器和模型。
MODEL_NAME="projecte-aina/whisper-large-v3-ca-3catparla"
processor = WhisperProcessor.from_pretrained(MODEL_NAME)
model = WhisperForConditionalGeneration.from_pretrained(MODEL_NAME).to("cuda")

# 加載數據集
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("projecte-aina/3catparla_asr",split='test')

# 下采樣到16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))

# 處理數據集
def map_to_pred(batch):
    audio = batch["audio"]
    input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features
    batch["reference"] = processor.tokenizer._normalize(batch['normalized_text'])

    with torch.no_grad():
        predicted_ids = model.generate(input_features.to("cuda"))[0]
    
    transcription = processor.decode(predicted_ids)
    batch["prediction"] = processor.tokenizer._normalize(transcription)
    
    return batch

# 進行評估
result = ds.map(map_to_pred)

# 計算整體WER
from evaluate import load

wer = load("wer")
WER=100 * wer.compute(references=result["reference"], predictions=result["prediction"])
print(WER)

測試結果：0.96

若要查看此代碼的更新且可用版本，請訪問我們的 Notebook

✨ 主要特性

語言適配：專門針對加泰羅尼亞語進行優化，適用於加泰羅尼亞語的自動語音識別任務。
模型微調：基於 "openai/whisper-large-v3" 模型進行微調，結合了710小時的加泰羅尼亞語數據，提升了模型在加泰羅尼亞語上的性能。

📦 安裝指南

環境準備

創建虛擬環境：

python -m venv /path/to/venv

激活環境：

source /path/to/venv/bin/activate

模塊安裝

pip install datasets transformers

💻 使用示例

基礎用法

# 此代碼在GPU上運行

# 注意：load_metric 不再是 datasets 的一部分。
# 你必須移除它並使用 evaluate 的 load 代替。
# （2024年11月說明）

import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor

# 加載處理器和模型。
MODEL_NAME="projecte-aina/whisper-large-v3-ca-3catparla"
processor = WhisperProcessor.from_pretrained(MODEL_NAME)
model = WhisperForConditionalGeneration.from_pretrained(MODEL_NAME).to("cuda")

# 加載數據集
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("projecte-aina/3catparla_asr",split='test')

# 下采樣到16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))

# 處理數據集
def map_to_pred(batch):
    audio = batch["audio"]
    input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features
    batch["reference"] = processor.tokenizer._normalize(batch['normalized_text'])

    with torch.no_grad():
        predicted_ids = model.generate(input_features.to("cuda"))[0]
    
    transcription = processor.decode(predicted_ids)
    batch["prediction"] = processor.tokenizer._normalize(transcription)
    
    return batch

# 進行評估
result = ds.map(map_to_pred)

# 計算整體WER
from evaluate import load

wer = load("wer")
WER=100 * wer.compute(references=result["reference"], predictions=result["prediction"])
print(WER)

📚 詳細文檔

模型描述

"whisper-large-v3-ca-3catparla" 是一個適用於加泰羅尼亞語自動語音識別的聲學模型。它是對 "openai/whisper-large-v3" 模型進行微調的結果，使用了來自西班牙巴塞羅那 Projecte AINA 發佈的710小時加泰羅尼亞語數據。

預期用途和限制

此模型可用於加泰羅尼亞語的自動語音識別（ASR）。該模型旨在將加泰羅尼亞語音頻文件轉錄為無標點的純文本。

訓練詳情

訓練數據

創建此模型所使用的特定數據集名為 "3CatParla"。

訓練過程

此模型是按照 Hugging Face 提供的教程對 "openai/whisper-large-v3" 模型進行微調的結果。

訓練超參數

屬性	詳情
語言	加泰羅尼亞語
訓練音頻時長	710小時
學習率	1.95e-07
採樣率	16000
訓練批次大小	32（x4 GPUs）
梯度累積步數	1
評估批次大小	32
保存總數限制	3
最大步數	19842
熱身步數	1984
評估步數	3307
保存步數	3307
洗牌緩衝區大小	480

引用

如果此模型對你的研究有幫助，請引用以下工作：

@inproceedings{hernandez20243catparla,
  title={3CatParla: A New Open-Source Corpus of Broadcast TV in Catalan for Automatic Speech Recognition},
  author={Hern{\'a}ndez Mena, Carlos Daniel and Armentano Oller, Carme and Solito, Sarah and K{\"u}lebi, Baybars},
  booktitle={Proc. IberSPEECH 2024},
  pages={176--180},
  year={2024}
}