Kotoba Whisper V2.1_分類| AIbase模型庫

首頁

Kotoba Whisper V2.1

由kotoba-tech開發

Kotoba-Whisper-v2.1 是一款基於 Whisper 的日語自動語音識別（ASR）模型，集成了額外的後處理棧，能夠自動添加標點符號。

語音識別

Transformers

日語開源協議:Apache-2.0 #日語語音識別 #標點符號自動添加 #低延遲推理

下載量 2,589

發布時間 : 9/17/2024

模型概述

該模型專注於日語語音識別任務，通過整合 punctuators 庫實現標點符號的自動添加，提升了轉錄文本的可讀性。

模型特點

標點符號自動添加

通過整合 punctuators 庫，模型能夠自動為轉錄文本添加標點符號，提升文本可讀性。

優化的日語識別

專門針對日語語音識別進行優化，在多個日語數據集上表現優異。

流水線集成

後處理棧通過流水線無縫整合，簡化了使用流程。

模型能力

日語語音識別

自動標點添加

批量處理音頻

使用案例

語音轉錄

會議記錄轉錄

將日語會議錄音轉換為帶標點的文字記錄

CER 17.7（CommonVoice 8 測試集）

媒體內容字幕生成

為日語視頻內容自動生成帶標點的字幕

CER 15.4（JSUT Basic 5000 數據集）

🚀 Kotoba-Whisper-v2.1

Kotoba-Whisper-v2.1 是基於 kotoba-tech/kotoba-whisper-v2.0 的日語自動語音識別（ASR）模型。它集成了額外的後處理棧，以 pipeline 的形式呈現。新特性包括使用 punctuators 添加標點符號。這些庫通過管道合併到 Kotoba-Whisper-v2.1 中，並將無縫應用於 kotoba-tech/kotoba-whisper-v2.0 的預測轉錄結果。該管道由 Asahi Ushio 和 Kotoba Technologies 合作開發。

✨ 主要特性

基於 kotoba-tech/kotoba-whisper-v2.0 構建，具備額外後處理棧。
集成標點添加功能，使用 punctuators 庫。
以 pipeline 形式集成後處理，無縫應用於預測轉錄結果。

📦 安裝指南

Kotoba-Whisper-v2.1 從 Hugging Face 🤗 Transformers 庫的 4.39 版本開始支持。要運行該模型，首先需要安裝最新版本的 Transformers：

pip install --upgrade pip
pip install --upgrade transformers accelerate torchaudio
pip install stable-ts==2.16.0
pip install punctuators==0.0.5

💻 使用示例

基礎用法

import torch
from transformers import pipeline
from datasets import load_dataset

# 配置
model_id = "kotoba-tech/kotoba-whisper-v2.1"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
device = "cuda:0" if torch.cuda.is_available() else "cpu"
model_kwargs = {"attn_implementation": "sdpa"} if torch.cuda.is_available() else {}
generate_kwargs = {"language": "ja", "task": "transcribe"}

# 加載模型
pipe = pipeline(
    model=model_id,
    torch_dtype=torch_dtype,
    device=device,
    model_kwargs=model_kwargs,
    batch_size=16,
    trust_remote_code=True,
    punctuator=True
)

# 加載示例音頻
dataset = load_dataset("japanese-asr/ja_asr.reazonspeech_test", split="test")
sample = dataset[0]["audio"]

# 運行推理
result = pipe(sample, chunk_length_s=15, return_timestamps=True, generate_kwargs=generate_kwargs)
print(result)

高級用法

轉錄本地音頻文件

- result = pipe(sample, return_timestamps=True, generate_kwargs=generate_kwargs)
+ result = pipe("audio.mp3", return_timestamps=True, generate_kwargs=generate_kwargs)

停用標點器

-     punctuator=True,
+     punctuator=False,

使用 Flash Attention 2

如果你的 GPU 支持，建議使用 Flash-Attention 2。為此，你首先需要安裝 Flash Attention：

pip install flash-attn --no-build-isolation

然後將 attn_implementation="flash_attention_2" 傳遞給 from_pretrained：

- model_kwargs = {"attn_implementation": "sdpa"} if torch.cuda.is_available() else {}
+ model_kwargs = {"attn_implementation": "flash_attention_2"} if torch.cuda.is_available() else {}

📚 詳細文檔

模型對比

以下表格展示了原始字符錯誤率（CER）（與通常的 CER 不同，這裡在計算指標之前不會去除標點符號，評估腳本見此處）：

模型	CommonVoice 8 (日語測試集)	JSUT Basic 5000	ReazonSpeech (保留測試集)
kotoba-tech/kotoba-whisper-v2.0	17.6	15.4	17.4
kotoba-tech/kotoba-whisper-v2.1	17.7	15.4	17
kotoba-tech/kotoba-whisper-v1.0	17.8	15.2	17.8
kotoba-tech/kotoba-whisper-v1.1	17.9	15	17.8
openai/whisper-large-v3	15.3	13.4	20.5
openai/whisper-large-v2	15.9	10.6	34.6
openai/whisper-large	16.6	11.3	40.7
openai/whisper-medium	17.9	13.1	39.3
openai/whisper-base	34.5	26.4	76
openai/whisper-small	21.5	18.9	48.1
openai/whisper-tiny	58.8	38.3	153.3