Whisper-small开源语音模型 - 免费部署实现语音识别与翻译

首页

Whisper Small

由 openai 开发

Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型，经过68万小时标注数据训练，具有强大的泛化能力。

语音识别支持多种语言开源协议:Apache-2.0 #多语言语音识别 #零样本翻译 #大规模预训练

下载量 2.0M

发布时间 : 9/26/2022

模型简介

Whisper是基于Transformer的编码器-解码器模型，支持多语言语音识别和翻译任务，无需微调即可适应多种数据集和领域。

模型特点

大规模弱监督训练

使用68万小时的标注语音数据进行训练，具有强大的泛化能力

多语言支持

支持超过100种语言的语音识别和翻译

零样本适应能力

无需微调即可适应多种数据集和领域

任务灵活性

通过上下文标记可灵活切换语音识别和翻译任务

模型能力

语音识别

语音翻译

多语言处理

自动语音转文本

使用案例

语音转录

会议记录

将会议录音自动转换为文字记录

在LibriSpeech测试集上WER为3.43(clean)和7.63(other)

播客转录

将播客内容转换为可搜索的文本

语音翻译

实时翻译

将一种语言的语音实时翻译为另一种语言的文本

🚀 语音识别模型Whisper

Whisper是一款用于自动语音识别（ASR）和语音翻译的预训练模型。它在68万小时的标注数据上进行训练，无需微调，就能在许多数据集和领域中展现出强大的泛化能力。

🚀 快速开始

要对音频样本进行转录，该模型需要与WhisperProcessor一起使用。WhisperProcessor用于：

预处理音频输入（将其转换为模型所需的对数梅尔频谱图）
后处理模型输出（将其从令牌转换为文本）

模型通过传递适当的“上下文令牌”来执行特定任务（转录或翻译）。这些上下文令牌是在解码过程开始时提供给解码器的一系列令牌，顺序如下：

转录始终以<|startoftranscript|>令牌开始
第二个令牌是语言令牌（例如，英语为<|en|>）
第三个令牌是“任务令牌”，可以是<|transcribe|>（用于语音识别）或<|translate|>（用于语音翻译）
此外，如果模型不应包含时间戳预测，则添加<|notimestamps|>令牌

因此，典型的上下文令牌序列可能如下所示：

<|startoftranscript|> <|en|> <|transcribe|> <|notimestamps|>

这告诉模型以英语进行解码，执行语音识别任务，并且不预测时间戳。

这些令牌可以是强制的或非强制的。如果是强制的，模型将在每个位置预测每个令牌，从而可以控制Whisper模型的输出语言和任务。如果是非强制的，Whisper模型将自动预测输出语言和任务。

可以相应地设置上下文令牌：

model.config.forced_decoder_ids = WhisperProcessor.get_decoder_prompt_ids(language="english", task="transcribe")

这将强制模型在语音识别任务中以英语进行预测。

✨ 主要特性

多语言支持：支持多种语言，包括英语、法语、德语、西班牙语等。
语音识别和翻译：可以执行语音识别和语音翻译任务。
不同规模的模型：提供五种不同配置的检查点，以满足不同的需求。
泛化能力强：在许多数据集和领域中表现出良好的泛化能力。

📦 安装指南

文档中未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

英语转录为英语

在这个示例中，上下文令牌是非强制的，这意味着模型将自动预测输出语言（英语）和任务（转录）。

>>> from transformers import WhisperProcessor, WhisperForConditionalGeneration
>>> from datasets import load_dataset

>>> # 加载模型和处理器
>>> processor = WhisperProcessor.from_pretrained("openai/whisper-small")
>>> model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")
>>> model.config.forced_decoder_ids = None

>>> # 加载虚拟数据集并读取音频文件
>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> sample = ds[0]["audio"]
>>> input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features 

>>> # 生成令牌ID
>>> predicted_ids = model.generate(input_features)
>>> # 将令牌ID解码为文本
>>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
['<|startoftranscript|><|en|><|transcribe|><|notimestamps|> Mr. Quilter is the apostle of the middle classes and we are glad to welcome his gospel.<|endoftext|>']

>>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
[' Mr. Quilter is the apostle of the middle classes and we are glad to welcome his gospel.']

可以通过设置skip_special_tokens=True从转录开头移除上下文令牌。

高级用法

法语转录为法语

以下示例通过适当设置解码器ID，展示了法语到法语的转录。

>>> from transformers import WhisperProcessor, WhisperForConditionalGeneration
>>> from datasets import Audio, load_dataset

>>> # 加载模型和处理器
>>> processor = WhisperProcessor.from_pretrained("openai/whisper-small")
>>> model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")
>>> forced_decoder_ids = processor.get_decoder_prompt_ids(language="french", task="transcribe")

>>> # 加载流式数据集并读取第一个音频样本
>>> ds = load_dataset("common_voice", "fr", split="test", streaming=True)
>>> ds = ds.cast_column("audio", Audio(sampling_rate=16_000))
>>> input_speech = next(iter(ds))["audio"]
>>> input_features = processor(input_speech["array"], sampling_rate=input_speech["sampling_rate"], return_tensors="pt").input_features

>>> # 生成令牌ID
>>> predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
>>> # 将令牌ID解码为文本
>>> transcription = processor.batch_decode(predicted_ids)
['<|startoftranscript|><|fr|><|transcribe|><|notimestamps|> Un vrai travail intéressant va enfin être mené sur ce sujet.<|endoftext|>']

>>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
[' Un vrai travail intéressant va enfin être mené sur ce sujet.']

法语翻译为英语

将任务设置为“translate”可强制Whisper模型执行语音翻译。

>>> from transformers import WhisperProcessor, WhisperForConditionalGeneration
>>> from datasets import Audio, load_dataset

>>> # 加载模型和处理器
>>> processor = WhisperProcessor.from_pretrained("openai/whisper-small")
>>> model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")
>>> forced_decoder_ids = processor.get_decoder_prompt_ids(language="french", task="translate")

>>> # 加载流式数据集并读取第一个音频样本
>>> ds = load_dataset("common_voice", "fr", split="test", streaming=True)
>>> ds = ds.cast_column("audio", Audio(sampling_rate=16_000))
>>> input_speech = next(iter(ds))["audio"]
>>> input_features = processor(input_speech["array"], sampling_rate=input_speech["sampling_rate"], return_tensors="pt").input_features

>>> # 生成令牌ID
>>> predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
>>> # 将令牌ID解码为文本
>>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
[' A very interesting work, we will finally be given on this subject.']

评估

此代码片段展示了如何在LibriSpeech test-clean上评估Whisper Small：

>>> from datasets import load_dataset
>>> from transformers import WhisperForConditionalGeneration, WhisperProcessor
>>> import torch
>>> from evaluate import load

>>> librispeech_test_clean = load_dataset("librispeech_asr", "clean", split="test")

>>> processor = WhisperProcessor.from_pretrained("openai/whisper-small")
>>> model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small").to("cuda")

>>> def map_to_pred(batch):
>>>     audio = batch["audio"]
>>>     input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features
>>>     batch["reference"] = processor.tokenizer._normalize(batch['text'])
>>> 
>>>     with torch.no_grad():
>>>         predicted_ids = model.generate(input_features.to("cuda"))[0]
>>>     transcription = processor.decode(predicted_ids)
>>>     batch["prediction"] = processor.tokenizer._normalize(transcription)
>>>     return batch

>>> result = librispeech_test_clean.map(map_to_pred)

>>> wer = load("wer")
>>> print(100 * wer.compute(references=result["reference"], predictions=result["prediction"]))
3.432213777886737

长文本转录

Whisper模型本质上设计用于处理长达30秒的音频样本。但是，通过使用分块算法，可以用于转录任意长度的音频样本。这可以通过Transformers的pipeline方法实现。在实例化管道时设置chunk_length_s=30可启用分块。启用分块后，管道可以进行批量推理。还可以通过传递return_timestamps=True扩展以预测序列级时间戳：

>>> import torch
>>> from transformers import pipeline
>>> from datasets import load_dataset

>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> pipe = pipeline(
>>>   "automatic-speech-recognition",
>>>   model="openai/whisper-small",
>>>   chunk_length_s=30,
>>>   device=device,
>>> )

>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> sample = ds[0]["audio"]

>>> prediction = pipe(sample.copy(), batch_size=8)["text"]
" Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel."

>>> # 我们还可以返回预测的时间戳
>>> prediction = pipe(sample.copy(), batch_size=8, return_timestamps=True)["chunks"]
[{'text': ' Mr. Quilter is the apostle of the middle classes and we are glad to welcome his gospel.',
  'timestamp': (0.0, 5.44)}]

有关分块算法的更多详细信息，请参考博客文章ASR Chunking。

📚 详细文档

模型细节

Whisper是一个基于Transformer的编码器 - 解码器模型，也称为_序列到序列_模型。它在68万小时的标注语音数据上进行训练，这些数据使用大规模弱监督进行标注。

模型在仅英语数据或多语言数据上进行训练。仅英语模型在语音识别任务上进行训练，多语言模型在语音识别和语音翻译任务上进行训练。对于语音识别，模型预测与音频相同语言的转录；对于语音翻译，模型预测与音频不同语言的转录。

Whisper检查点有五种不同模型大小的配置。最小的四个在仅英语或多语言数据上进行训练，最大的检查点仅支持多语言。所有十个预训练检查点都可以在Hugging Face Hub上找到。以下表格总结了这些检查点，并提供了Hub上模型的链接：

大小	参数	仅英语	多语言
tiny	39 M	✓	✓
base	74 M	✓	✓
small	244 M	✓	✓
medium	769 M	✓	✓
large	1550 M	x	✓
large-v2	1550 M	x	✓

训练数据

模型在从互联网收集的68万小时音频和相应转录上进行训练。其中65%（或43.8万小时）是英语音频和匹配的英语转录，约18%（或12.6万小时）是非英语音频和英语转录，最后17%（或11.7万小时）是非英语音频和相应的转录。这些非英语数据代表98种不同的语言。

正如随附论文中所讨论的，我们发现给定语言的转录性能与该语言的训练数据量直接相关。

性能和局限性

我们的研究表明，与许多现有的ASR系统相比，这些模型在口音、背景噪音、专业语言方面表现出更强的鲁棒性，以及从多种语言到英语的零样本翻译能力；并且语音识别和翻译的准确性接近当前的先进水平。

然而，由于模型是使用大规模嘈杂数据进行弱监督训练的，预测结果可能包含音频输入中实际未说出的文本（即幻觉）。我们假设这是因为模型结合了对音频中下一个单词的预测和对音频本身的转录。

我们的模型在不同语言上的表现不均衡，对于资源较少和/或可发现性较低的语言，或者训练数据较少的语言，准确性较低。模型在特定语言的不同口音和方言上也表现出不同的性能，这可能包括不同性别、种族、年龄或其他人口统计标准的说话者之间较高的单词错误率。我们的完整评估结果在本次发布的随附论文中呈现。

此外，模型的序列到序列架构使其容易生成重复文本，虽然可以通过束搜索和温度调度在一定程度上缓解，但无法完全解决。论文中对这些局限性进行了进一步分析。在资源较少和/或可发现性较低的语言上，这种行为和幻觉可能会更严重。

更广泛的影响

我们预计Whisper模型的转录能力可用于改进辅助工具。虽然Whisper模型不能直接用于实时转录，但其速度和大小表明，其他人可以在其基础上构建允许接近实时语音识别和翻译的应用程序。基于Whisper模型构建的有益应用程序的真正价值表明，这些模型的不同性能可能会产生实际的经济影响。

发布Whisper也存在潜在的双重用途问题。虽然我们希望该技术主要用于有益目的，但使ASR技术更易于使用可能会使更多参与者能够构建强大的监控技术或扩大现有的监控工作，因为其速度和准确性允许对大量音频通信进行经济实惠的自动转录和翻译。此外，这些模型可能具有一定的能力直接识别特定个人，这反过来又带来了与双重用途和不同性能相关的安全问题。实际上，我们预计转录成本不是扩大监控项目的限制因素。

评估使用

这些模型的主要预期用户是研究当前模型的鲁棒性、泛化能力、性能、偏差和局限性的AI研究人员。然而，Whisper作为一种ASR解决方案，对开发者也可能非常有用，特别是对于英语语音识别。我们认识到，一旦模型发布，就不可能将访问限制在“预期”用途，也难以制定合理的准则来界定什么是研究，什么不是研究。

模型主要在ASR和语音翻译到英语的任务上进行训练和评估。它们在约10种语言的ASR任务中表现出色。它们可能具有其他功能，特别是在某些任务（如语音活动检测、说话者分类或说话者分离）上进行微调时，但在这些领域尚未进行全面评估。我们强烈建议用户在特定上下文和领域中对模型进行全面评估后再进行部署。

特别是，我们警告不要使用Whisper模型在未经个人同意的情况下转录其录音，或声称使用这些模型进行任何主观分类。我们不建议在高风险领域（如决策环境）中使用，因为准确性的缺陷可能导致结果出现明显缺陷。这些模型旨在转录和翻译语音，将其用于分类不仅未经过评估，而且不合适，特别是用于推断人类属性。

BibTeX引用

@misc{radford2022whisper,
  doi = {10.48550/ARXIV.2212.04356},
  url = {https://arxiv.org/abs/2212.04356},
  author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
  title = {Robust Speech Recognition via Large-Scale Weak Supe