Kotoba-Whisper-Bilingual-v1.0開源模型 - 免費實現日英語音識別與語言翻譯

首頁

Kotoba Whisper Bilingual V1.0

由kotoba-tech開發

Kotoba-Whisper-Bilingual是通過蒸餾Whisper模型訓練而成的集合，專為日語和英語語音識別及語音到文本翻譯任務設計。

語音識別

Transformers

支持多種語言開源協議:Apache-2.0 #日語英語雙語ASR #語音到文本翻譯 #低延遲推理

下載量 782

發布時間 : 9/27/2024

模型概述

該模型支持日語和英語的自動語音識別（ASR）以及日語和英語之間的語音到文本翻譯任務。

模型特點

雙語支持

同時支持日語和英語的語音識別及互譯

高效推理

比原始Whisper large-v3模型快6.3倍

多任務能力

可同時執行語音識別和語音到文本翻譯任務

模型能力

日語語音識別

英語語音識別

日語到英語語音翻譯

英語到日語語音翻譯

使用案例

語音識別

日語語音轉錄

將日語語音轉換為文本

在CommonVoice 8日語測試集上CER為9.8

英語語音轉錄

將英語語音轉換為文本

在ESB數據集上表現良好

語音翻譯

日語到英語翻譯

將日語語音即時翻譯為英語文本

在CoVoST2(Ja->En)上WER為73.9

英語到日語翻譯

將英語語音即時翻譯為日語文本

在CoVoST2(En->Ja)上CER為69.1

🚀 Kotoba-Whisper-Bilingual (v1.0)

Kotoba-Whisper-Bilingual 是一個經過蒸餾的 Whisper 模型集合，支持日語和英語的自動語音識別（ASR），以及日語與英語之間的語音轉文字翻譯。該模型由 Asahi Ushio 和 Kotoba Technologies 合作開發，在性能和推理速度上都有不錯的表現。

模型權重鏈接

✨ 主要特性

多語言支持：支持日語和英語的自動語音識別。
雙向翻譯：可以實現日語語音到英語文字，以及英語語音到日語文字的翻譯。
低延遲：繼承了 distil-whisper 的優勢，相比 openai/whisper-large-v3 有顯著的延遲優化（比 large-v3 快 6.3 倍）。

📦 安裝指南

Kotoba-Whisper 從 Hugging Face 🤗 Transformers 庫的 4.39 版本開始支持。要運行該模型，首先需要安裝最新版本的 Transformers。

pip install --upgrade pip
pip install --upgrade transformers accelerate

💻 使用示例

基礎用法

以下是使用 pipeline 類轉錄短音頻文件（< 30 秒）的示例代碼：

import torch
from transformers import pipeline
from datasets import load_dataset

# config
torch_dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
device = "cuda:0" if torch.cuda.is_available() else "cpu"
model_kwargs = {"attn_implementation": "sdpa"} if torch.cuda.is_available() else {}
pipe = pipeline(
    "automatic-speech-recognition",
    model="kotoba-tech/kotoba-whisper-bilingual-v1.0",
    torch_dtype=torch_dtype,
    device=device,
    model_kwargs=model_kwargs,
    chunk_length_s=15,
    batch_size=16
)

# 下載示例音頻
import os
if not os.path.exists("sample_en.wav"):
    os.system("wget https://huggingface.co/datasets/japanese-asr/en_asr.esb_eval/resolve/main/sample.wav -O sample_en.wav")
if not os.path.exists("sample_ja.flac"):
    os.system("wget https://huggingface.co/datasets/japanese-asr/ja_asr.jsut_basic5000/resolve/main/sample.flac -O sample_ja.flac")

# 日語 ASR
generate_kwargs = {"language": "ja", "task": "transcribe"}
result = pipe("sample_ja.flac", generate_kwargs=generate_kwargs)
print(result["text"])

# 英語 ASR
generate_kwargs = {"language": "en", "task": "transcribe"}
result = pipe("sample_en.wav", generate_kwargs=generate_kwargs)
print(result["text"])

# 日語語音轉英語文字
generate_kwargs = {"language": "en", "task": "translate"}
result = pipe("sample_ja.flac", generate_kwargs=generate_kwargs)
print(result["text"])

# 英語語音轉日語文字
generate_kwargs = {"language": "ja", "task": "translate"}
result = pipe("sample_en.wav", generate_kwargs=generate_kwargs)
print(result["text"])

高級用法

獲取分段級別的時間戳：

result = pipe(sample, return_timestamps=True, generate_kwargs=generate_kwargs)
print(result["chunks"])

📚 詳細文檔

評估結果

將 Kotoba-Whisper-Bilingual 與 OpenAI 的 Whisper 模型、Kotoba-Whisper 模型以及級聯翻譯模型進行了比較。值得注意的是，Kotoba-Whisper-Bilingual 是唯一能夠同時進行日語和英語 ASR 以及日語和英語之間語音轉文字翻譯的模型。

語音轉文字翻譯（日語 -> 英語）：WER（越低越好）

模型	CoVoST2 (Ja->En)	Fleurs (Ja->En)
kotoba-tech/kotoba-whisper-bilingual-v1.0	73.9	98.7
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-3.3B)	64.3	67.1
...	...	...

語音轉文字翻譯（英語 -> 日語）：CER（越低越好）

模型	CoVoST2 (En->Ja)	Fleurs (En->JA)
kotoba-tech/kotoba-whisper-bilingual-v1.0	69.1	74.4
japanese-asr/en-cascaded-s2t-translation (facebook/nllb-200-3.3B)	62.4	63.5
...	...	...

ASR（日語）：CER（越低越好）

模型	CommonVoice 8 (Japanese test set)	JSUT Basic 5000	ReazonSpeech (held out test set)
kotoba-tech/kotoba-whisper-bilingual-v1.0	9.8	9.3	16.8
kotoba-tech/kotoba-whisper-v2.0	9.2	8.4	11.6
...	...	...	...

ASR（英語）：WER（越低越好）

模型	ESB (ami)	ESB (earnings22)	ESB (librispeech)	ESB (tedlium)	ESB (voxpopuli)
kotoba-tech/kotoba-whisper-bilingual-v1.0	16.7	15.3	2.4	4.1	8.3
openai/whisper-large-v3	17.9	14.9	2.1	3.8	12.7
...	...	...	...	...	...

推理速度

儘管級聯方法在翻譯任務中表現更好，但由於其本質，與單端到端模型相比，其管道具有額外的複雜性和內存消耗。以下是在單個 RTX 4090（VRAM 24 GB）上對不同時長音頻樣本進行 10 次試驗的平均推理時間（秒），以及參數大小。

模型	參數 (M)	10 (秒)	30 (秒)	60 (秒)	300 (秒)
kotoba-tech/kotoba-whisper-bilingual-v1.0	756	0.041	0.111	0.214	1.077
japanese-asr/en-cascaded-s2t-translation (facebook/nllb-200-3.3B)	4056	0.173	0.247	0.352	1.772
...	...	...	...	...	...