Whisper-Large-V3-法語蒸餾版開源模型 - 降低資源消耗高效法語語音識別

首頁

Whisper Large V3 French Distil Dec16

由bofenghuang開發

Whisper-Large-V3-法語蒸餾版是通過將解碼器層數從32層縮減至16層，並基於大規模數據集進行蒸餾訓練而得到的法語語音識別模型。該模型在保持性能的同時顯著降低了內存佔用和推理時間。

語音識別

Transformers

法語開源協議:MIT #法語語音識別 #蒸餾加速 #長文本優化

下載量 2,461

發布時間 : 12/13/2023

模型概述

這是一個針對法語優化的語音識別模型，通過蒸餾技術減少了模型複雜度，適合需要高效語音轉錄的應用場景。

模型特點

高效蒸餾架構

解碼器層數從32層縮減至16層，顯著降低計算資源需求

性能保持

在保持接近原始模型準確率的同時提升推理速度

長文本處理優化

有效緩解了長文本轉錄中的幻覺風險

多框架支持

支持transformers、openai-whisper、fasterwhisper等多種推理框架

模型能力

法語語音識別

長音頻轉錄

即時語音轉文字

使用案例

客服場景

客服通話記錄轉錄

將法語客服通話內容自動轉錄為文字

在包含背景噪聲和領域術語的測試集上表現良好

媒體處理

法語視頻字幕生成

自動為法語視頻內容生成字幕

🚀 Whisper-Large-V3-French-Distil-Dec16

Whisper-Large-V3-French-Distil是Whisper-Large-V3-French的一系列蒸餾版本。通過將解碼器層數從32層減少到16層、8層、4層或2層，並使用大規模數據集進行蒸餾，具體可參考這篇論文。

這些蒸餾變體在保持性能（基於保留的層數）的同時，減少了內存使用和推理時間，並降低了幻覺風險，特別是在長文本轉錄中。此外，它們可以與原始的Whisper-Large-V3-French模型無縫結合進行推測解碼，與單獨使用該模型相比，可提高推理速度並保證輸出的一致性。

該模型已轉換為多種格式，便於在不同的庫中使用，包括transformers、openai-whisper、fasterwhisper、whisper.cpp、candle、mlx等。

🚀 快速開始

本模型可用於法語語音識別任務，能在多種庫中使用，下面將詳細介紹其使用方法。

✨ 主要特性

蒸餾優化：減少解碼器層數，降低內存使用和推理時間，同時保持性能。
減少幻覺：降低長文本轉錄中的幻覺風險。
推測解碼：可與原始模型結合，提高推理速度。
多格式支持：支持多種庫，方便在不同環境中使用。

📦 安裝指南

根據不同的使用場景，需要安裝不同的依賴庫，以下是一些常見的安裝命令：

OpenAI Whisper

pip install -U openai-whisper

Faster Whisper

pip install faster-whisper

Whisper.cpp

git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp
make

💻 使用示例

基礎用法

Hugging Face Pipeline

import torch
from datasets import load_dataset
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

# 加載模型
model_name_or_path = "bofenghuang/whisper-large-v3-french-distil-dec16"
processor = AutoProcessor.from_pretrained(model_name_or_path)
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_name_or_path,
    torch_dtype=torch_dtype,
    low_cpu_mem_usage=True,
)
model.to(device)

# 初始化pipeline
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    feature_extractor=processor.feature_extractor,
    tokenizer=processor.tokenizer,
    torch_dtype=torch_dtype,
    device=device,
    # chunk_length_s=30,  # 用於長文本轉錄
    max_new_tokens=128,
)

# 示例音頻
dataset = load_dataset("bofenghuang/asr-dummy", "fr", split="test")
sample = dataset[0]["audio"]

# 運行pipeline
result = pipe(sample)
print(result["text"])

高級用法

推測解碼

import torch
from datasets import load_dataset
from transformers import (
    AutoModelForCausalLM,
    AutoModelForSpeechSeq2Seq,
    AutoProcessor,
    pipeline,
)

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

# 加載模型
model_name_or_path = "bofenghuang/whisper-large-v3-french"
processor = AutoProcessor.from_pretrained(model_name_or_path)
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_name_or_path,
    torch_dtype=torch_dtype,
    low_cpu_mem_usage=True,
)
model.to(device)

# 加載草稿模型
assistant_model_name_or_path = "bofenghuang/whisper-large-v3-french-distil-dec2"
assistant_model = AutoModelForCausalLM.from_pretrained(
    assistant_model_name_or_path,
    torch_dtype=torch_dtype,
    low_cpu_mem_usage=True,
)
assistant_model.to(device)

# 初始化pipeline
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    feature_extractor=processor.feature_extractor,
    tokenizer=processor.tokenizer,
    torch_dtype=torch_dtype,
    device=device,
    generate_kwargs={"assistant_model": assistant_model},
    max_new_tokens=128,
)

# 示例音頻
dataset = load_dataset("bofenghuang/asr-dummy", "fr", split="test")
sample = dataset[0]["audio"]

# 運行pipeline
result = pipe(sample)
print(result["text"])