Kotoba-Whisper-Bilingual-v1.0开源模型 - 免费实现日英语音识别与语言翻译

首页

Kotoba Whisper Bilingual V1.0

由 kotoba-tech 开发

Kotoba-Whisper-Bilingual是通过蒸馏Whisper模型训练而成的集合，专为日语和英语语音识别及语音到文本翻译任务设计。

语音识别

Transformers

支持多种语言开源协议:Apache-2.0 #日语英语双语ASR #语音到文本翻译 #低延迟推理

下载量 782

发布时间 : 9/27/2024

模型简介

该模型支持日语和英语的自动语音识别（ASR）以及日语和英语之间的语音到文本翻译任务。

模型特点

双语支持

同时支持日语和英语的语音识别及互译

高效推理

比原始Whisper large-v3模型快6.3倍

多任务能力

可同时执行语音识别和语音到文本翻译任务

模型能力

日语语音识别

英语语音识别

日语到英语语音翻译

英语到日语语音翻译

使用案例

语音识别

日语语音转录

将日语语音转换为文本

在CommonVoice 8日语测试集上CER为9.8

英语语音转录

将英语语音转换为文本

在ESB数据集上表现良好

语音翻译

日语到英语翻译

将日语语音实时翻译为英语文本

在CoVoST2(Ja->En)上WER为73.9

英语到日语翻译

将英语语音实时翻译为日语文本

在CoVoST2(En->Ja)上CER为69.1

🚀 Kotoba-Whisper-Bilingual (v1.0)

Kotoba-Whisper-Bilingual 是一个经过蒸馏的 Whisper 模型集合，支持日语和英语的自动语音识别（ASR），以及日语与英语之间的语音转文字翻译。该模型由 Asahi Ushio 和 Kotoba Technologies 合作开发，在性能和推理速度上都有不错的表现。

模型权重链接

✨ 主要特性

多语言支持：支持日语和英语的自动语音识别。
双向翻译：可以实现日语语音到英语文字，以及英语语音到日语文字的翻译。
低延迟：继承了 distil-whisper 的优势，相比 openai/whisper-large-v3 有显著的延迟优化（比 large-v3 快 6.3 倍）。

📦 安装指南

Kotoba-Whisper 从 Hugging Face 🤗 Transformers 库的 4.39 版本开始支持。要运行该模型，首先需要安装最新版本的 Transformers。

pip install --upgrade pip
pip install --upgrade transformers accelerate

💻 使用示例

基础用法

以下是使用 pipeline 类转录短音频文件（< 30 秒）的示例代码：

import torch
from transformers import pipeline
from datasets import load_dataset

# config
torch_dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
device = "cuda:0" if torch.cuda.is_available() else "cpu"
model_kwargs = {"attn_implementation": "sdpa"} if torch.cuda.is_available() else {}
pipe = pipeline(
    "automatic-speech-recognition",
    model="kotoba-tech/kotoba-whisper-bilingual-v1.0",
    torch_dtype=torch_dtype,
    device=device,
    model_kwargs=model_kwargs,
    chunk_length_s=15,
    batch_size=16
)

# 下载示例音频
import os
if not os.path.exists("sample_en.wav"):
    os.system("wget https://huggingface.co/datasets/japanese-asr/en_asr.esb_eval/resolve/main/sample.wav -O sample_en.wav")
if not os.path.exists("sample_ja.flac"):
    os.system("wget https://huggingface.co/datasets/japanese-asr/ja_asr.jsut_basic5000/resolve/main/sample.flac -O sample_ja.flac")

# 日语 ASR
generate_kwargs = {"language": "ja", "task": "transcribe"}
result = pipe("sample_ja.flac", generate_kwargs=generate_kwargs)
print(result["text"])

# 英语 ASR
generate_kwargs = {"language": "en", "task": "transcribe"}
result = pipe("sample_en.wav", generate_kwargs=generate_kwargs)
print(result["text"])

# 日语语音转英语文字
generate_kwargs = {"language": "en", "task": "translate"}
result = pipe("sample_ja.flac", generate_kwargs=generate_kwargs)
print(result["text"])

# 英语语音转日语文字
generate_kwargs = {"language": "ja", "task": "translate"}
result = pipe("sample_en.wav", generate_kwargs=generate_kwargs)
print(result["text"])

高级用法

获取分段级别的时间戳：

result = pipe(sample, return_timestamps=True, generate_kwargs=generate_kwargs)
print(result["chunks"])

📚 详细文档

评估结果

将 Kotoba-Whisper-Bilingual 与 OpenAI 的 Whisper 模型、Kotoba-Whisper 模型以及级联翻译模型进行了比较。值得注意的是，Kotoba-Whisper-Bilingual 是唯一能够同时进行日语和英语 ASR 以及日语和英语之间语音转文字翻译的模型。

语音转文字翻译（日语 -> 英语）：WER（越低越好）

模型	CoVoST2 (Ja->En)	Fleurs (Ja->En)
kotoba-tech/kotoba-whisper-bilingual-v1.0	73.9	98.7
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-3.3B)	64.3	67.1
...	...	...

语音转文字翻译（英语 -> 日语）：CER（越低越好）

模型	CoVoST2 (En->Ja)	Fleurs (En->JA)
kotoba-tech/kotoba-whisper-bilingual-v1.0	69.1	74.4
japanese-asr/en-cascaded-s2t-translation (facebook/nllb-200-3.3B)	62.4	63.5
...	...	...

ASR（日语）：CER（越低越好）

模型	CommonVoice 8 (Japanese test set)	JSUT Basic 5000	ReazonSpeech (held out test set)
kotoba-tech/kotoba-whisper-bilingual-v1.0	9.8	9.3	16.8
kotoba-tech/kotoba-whisper-v2.0	9.2	8.4	11.6
...	...	...	...

ASR（英语）：WER（越低越好）

模型	ESB (ami)	ESB (earnings22)	ESB (librispeech)	ESB (tedlium)	ESB (voxpopuli)
kotoba-tech/kotoba-whisper-bilingual-v1.0	16.7	15.3	2.4	4.1	8.3
openai/whisper-large-v3	17.9	14.9	2.1	3.8	12.7
...	...	...	...	...	...

推理速度

尽管级联方法在翻译任务中表现更好，但由于其本质，与单端到端模型相比，其管道具有额外的复杂性和内存消耗。以下是在单个 RTX 4090（VRAM 24 GB）上对不同时长音频样本进行 10 次试验的平均推理时间（秒），以及参数大小。

模型	参数 (M)	10 (秒)	30 (秒)	60 (秒)	300 (秒)
kotoba-tech/kotoba-whisper-bilingual-v1.0	756	0.041	0.111	0.214	1.077
japanese-asr/en-cascaded-s2t-translation (facebook/nllb-200-3.3B)	4056	0.173	0.247	0.352	1.772
...	...	...	...	...	...