kb - whisper - large開源瑞典語語音識別模型，5萬小時數據訓練降低詞錯率

首頁

Kb Whisper Large

由KBLab開發

瑞典國家圖書館發佈的基於Whisper架構的瑞典語語音識別模型，訓練數據超過5萬小時，顯著降低詞錯誤率。

語音識別

Transformers

其他開源協議:Apache-2.0 #瑞典語語音識別 #低詞錯誤率 #多格式支持

下載量 8,880

發布時間 : 2/14/2025

模型概述

專為瑞典語優化的語音識別模型，基於OpenAI Whisper架構，在多個瑞典語數據集上表現優異。

模型特點

顯著降低詞錯誤率

相比OpenAI原版模型，在瑞典語識別上平均降低47%的詞錯誤率(WER)

多格式支持

提供Hugging Face、whisper.cpp(GGML)、onnx和ctranslate2多種格式的模型檢查點

多版本轉錄風格

提供三種轉錄風格版本：字幕版(簡潔)、標準版(默認)和嚴格版(逐字逐句)

大規模訓練數據

基於超過5萬小時的瑞典語音數據訓練，分兩個質量階段進行訓練

模型能力

瑞典語語音識別

帶時間戳的語音轉錄

多格式推理支持

批處理語音轉錄

使用案例

語音轉錄

會議記錄轉錄

將瑞典語會議錄音轉換為文字記錄

高準確率的轉錄文本

字幕生成

為瑞典語視頻內容生成字幕

帶時間戳的字幕文件

語音分析

語音內容分析

分析瑞典語語音內容進行後續處理

結構化文本數據

🚀 KB-Whisper Large

瑞典國家圖書館發佈了一套全新的Whisper模型，這些模型在超過50,000小時的瑞典語語音數據上進行了訓練。在對FLEURS、CommonVoice和NST等數據集的評估中，我們表現最佳的模型與OpenAI的whisper-large-v3相比，平均將單詞錯誤率（WER）降低了47%。較小尺寸的Whisper模型在瑞典語語音上的性能也有顯著提升，其中kb-whisper-small的表現甚至超過了體積大其六倍的openai/whisper-large-v3。

🚀 快速開始

本項目提供了不同格式的檢查點，包括Hugging Face、whisper.cpp（GGML）、onnx和ctranslate2（用於faster-whisper和WhisperX）。以下是不同方式的使用示例：

💻 使用示例

基礎用法

以下是使用KB-Whisper與Hugging Face進行推理的示例代碼：

import torch
from datasets import load_dataset
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "KBLab/kb-whisper-large"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, use_safetensors=True, cache_dir="cache"
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device=device,
)

generate_kwargs = {"task": "transcribe", "language": "sv"}
# Add return_timestamps=True for output with timestamps
res = pipe("audio.mp3", 
           chunk_length_s=30,
           generate_kwargs={"task": "transcribe", "language": "sv"})
print(res)

高級用法

以下是使用faster-whisper、WhisperX、whisper.cpp / GGML和onnx (optimum)以及transformers.js的高級用法示例：

Faster-whisper

Faster-whisper通過使用ctranslate2重新實現Whisper，提供了快速高效的推理。

#### faster-whisper model ####
from faster_whisper import WhisperModel

model_id = "KBLab/kb-whisper-large"
model = WhisperModel(
    model_id,
    device="cuda",
    compute_type="float16",
    download_root="cache", # cache directory
    # condition_on_previous_text = False # Can reduce hallucinations if we don't use prompts
)

# Transcribe audio.wav (convert to 16khz mono wav first via ffmpeg)
segments, info = model.transcribe("audio.wav", condition_on_previous_text=False)
print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

WhisperX

WhisperX提供了一種方便的方法來獲取準確的單詞級時間戳。該庫將Whisper的文本輸出與Wav2vec2的準確時間戳相結合。以下是如何將KB-Whisper與KBLab/wav2vec2-large-voxrex-swedish一起使用的示例：

import whisperx

device = "cuda"
audio_file = "audio.wav"
batch_size = 16  # reduce if low on GPU mem
compute_type = "float16"  # change to "int8" if low on GPU mem (may reduce accuracy)

# 1. Transcribe with original whisper (batched)
model = whisperx.load_model(
    "KBLab/kb-whisper-large", device, compute_type=compute_type, download_root="cache"  # cache_dir
)

audio = whisperx.load_audio(audio_file)
result = model.transcribe(audio, batch_size=batch_size)
print(result["segments"])  # before alignment

# delete model if low on GPU resources
# import gc; gc.collect(); torch.cuda.empty_cache(); del model

# 2. Align whisper output
model_a, metadata = whisperx.load_align_model(
    language_code=result["language"],
    device=device,
    model_name="KBLab/wav2vec2-large-voxrex-swedish",
    model_dir="cache",  # cache_dir
)
result = whisperx.align(
    result["segments"], model_a, metadata, audio, device, return_char_alignments=False
)

print(result["segments"])  # word level timestamps after alignment

Whisper.cpp / GGML

我們提供了用於whisper.cpp和MacWhisper應用程序的GGML檢查點。要使用whisper.cpp與我們的模型，首先克隆倉庫並構建庫：

git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp
cmake -B build
cmake --build build --config Release

要使用該模型，你需要下載我們上傳的GGML檢查點之一。你可以點擊此處的下載按鈕，或者使用wget下載：

wget https://huggingface.co/KBLab/kb-whisper-large/resolve/main/ggml-model-q5_0.bin # Quantized version
# wget https://huggingface.co/KBLab/kb-whisper-large/resolve/main/ggml-model.bin # Non-quantized version

通過在參數-m後指定模型路徑，並將音頻文件的路徑作為最後一個位置參數來運行推理：

./build/bin/whisper-cli -m ggml-model-q5_0.bin ../audio.wav

onnx (optimum) and transformers.js usage

你可以通過Hugging Face的optimum庫以以下方式使用onnx檢查點：

from optimum.onnxruntime import ORTModelForSpeechSeq2Seq
from transformers import AutoProcessor

model_id = "KBLab/kb-whisper-large"
processor = AutoProcessor.from_pretrained(model_id, cache_dir="cache")
model = ORTModelForSpeechSeq2Seq.from_pretrained(
    model_id,
    cache_dir="cache",
    subfolder="onnx",
)

import soundfile as sf
audio = sf.read("audio.wav")

inputs = processor.feature_extractor(audio[0], sampling_rate=16000, return_tensors="pt")
gen_tokens = model.generate(**inputs, max_length=300)
processor.decode(gen_tokens[0], skip_special_tokens=True)

一個使用transformers.js和KB-Whisper在瀏覽器中進行本地推理的應用程序示例可以在https://whisper.mesu.re/找到（由Pierre Mesure創建）。一個使用JavaScript設置此類應用程序的模板可以在https://github.com/xenova/whisper-web找到。

📚 詳細文檔

訓練數據

我們的模型在超過50,000小時帶有文本轉錄的瑞典語音頻上進行了訓練。模型分兩個階段進行訓練，每個階段的特點是應用了不同的質量過濾器和過濾器閾值。

第一階段採用了較低的閾值（根據數據集，BLEU值在0到0.30之間），而第二階段使用了更嚴格的閾值（BLEU >= 0.7，加權ROUGE-N >= 0.7，前10個和後10個字符的CER <= 0.2）。

數據集	持續預訓練（小時） - 第一階段	微調（小時） - 第二階段
字幕	34,261	3,110
議會	21,949	5,119
ISOF	54	54
NST	250	250
總計	56,514	8,533

通過Hugging Face加載我們的模型時，默認使用第二階段。不過，我們也上傳了持續預訓練的檢查點並進行了標記。你可以通過在.from_pretrained()中指定revision來加載這些其他檢查點。例如，預訓練檢查點的標籤可以在pretrained-checkpoint找到。第二階段的默認模型標籤名為standard。我們還提供了一個不同的第二階段檢查點，其轉錄風格更簡潔，名為subtitle。

評估

單詞錯誤率（WER）

模型大小		FLEURS	CommonVoice	NST
tiny	KBLab	13.2	12.9	11.2
	OpenAI	59.2	67.8	85.2
base	KBLab	9.1	8.7	7.8
	OpenAI	39.6	52.1	53.4
small	KBLab	7.3	6.4	6.6
	OpenAI	20.6	26.4	26.4
medium	KBLab	6.6	5.4	5.8
	OpenAI	12.1	15.8	17.1
large-v3	KBLab	5.4	4.1	5.2
	OpenAI	7.8	9.5	11.3

BLEU分數

模型大小		FLEURS	CommonVoice	NST
tiny	KBLab	76.6	73.7	74.3
	OpenAI	26.9	21.1	24.0
base	KBLab	83.2	79.9	78.3
	OpenAI	41.1	32.5	36.9
small	KBLab	86.6	83.5	79.6
	OpenAI	64.0	56.5	58.2
medium	KBLab	87.6	85.0	80.2
	OpenAI	77.1	70.1	68.9
large-v3	KBLab	89.8	87.2	81.1
	OpenAI	84.9	79.1	75.1