Whisper-large-v3-turbo開源語音模型 - 免費部署實現精準語音識別與翻譯

首頁

Whisper Large V3 Turbo

由openai開發

Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型，經過超過500萬小時標記數據的訓練，在零樣本設置下展現出強大的泛化能力。

語音識別

Transformers

支持多種語言開源協議:MIT #多語言語音識別 #快速語音轉錄 #長音頻處理

下載量 4.0M

發布時間 : 10/1/2024

模型概述

Whisper large-v3-turbo是Whisper large-v3的剪枝微調版本，解碼層從32層減少到4層，速度大幅提升但質量略有下降。

模型特點

高效推理

通過減少解碼層數實現更快的推理速度，適合即時應用場景

多語言支持

支持90多種語言的語音識別和翻譯

零樣本泛化能力

在未見過的數據集和領域上表現出色

長音頻處理

支持分塊處理長音頻文件，提高處理效率

模型能力

語音轉文本

多語言語音識別

語音翻譯(到英語)

時間戳預測

語言檢測

使用案例

轉錄服務

會議記錄

自動轉錄會議錄音

準確率高，支持多種語言

播客轉錄

將播客內容轉為文字

支持長時間音頻處理

翻譯服務

即時翻譯

將非英語語音即時翻譯為英語文本

翻譯質量接近人工水平

🚀 Whisper

Whisper是一款先進的自動語音識別（ASR）和語音翻譯模型，由OpenAI的Alec Radford等人在論文Robust Speech Recognition via Large-Scale Weak Supervision中提出。該模型在超過500萬小時的標註數據上進行訓練，在零樣本設置下對許多數據集和領域都展現出了強大的泛化能力。

Whisper large-v3-turbo是經過剪枝的Whisper large-v3的微調版本。也就是說，除了解碼層數量從32層減少到4層之外，它與原模型完全相同。因此，該模型速度更快，但會有輕微的質量下降。你可以在這個GitHub討論中找到更多相關細節。

聲明：此模型卡片的部分內容由🤗 Hugging Face團隊撰寫，部分內容從原始模型卡片複製粘貼而來。

🚀 快速開始

Whisper large-v3-turbo在Hugging Face 🤗 Transformers中得到支持。要運行該模型，首先需要安裝Transformers庫。在本示例中，我們還將安裝🤗 Datasets以從Hugging Face Hub加載玩具音頻數據集，並安裝🤗 Accelerate以減少模型加載時間：

pip install --upgrade pip
pip install --upgrade transformers datasets[audio] accelerate

可以使用pipeline類對任意長度的音頻進行轉錄：

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset


device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device=device,
)

dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]

result = pipe(sample)
print(result["text"])

要轉錄本地音頻文件，只需在調用pipeline時傳入音頻文件的路徑：

result = pipe("audio.mp3")

通過將多個音頻文件指定為列表並設置batch_size參數，可以並行轉錄多個音頻文件：

result = pipe(["audio_1.mp3", "audio_2.mp3"], batch_size=2)

Transformers與所有Whisper解碼策略兼容，例如溫度回退和基於先前標記的條件。以下示例展示瞭如何啟用這些啟發式方法：

generate_kwargs = {
    "max_new_tokens": 448,
    "num_beams": 1,
    "condition_on_prev_tokens": False,
    "compression_ratio_threshold": 1.35,  # zlib壓縮比閾值（在標記空間中）
    "temperature": (0.0, 0.2, 0.4, 0.6, 0.8, 1.0),
    "logprob_threshold": -1.0,
    "no_speech_threshold": 0.6,
    "return_timestamps": True,
}

result = pipe(sample, generate_kwargs=generate_kwargs)

Whisper會自動預測源音頻的語言。如果事先知道源音頻的語言，可以將其作為參數傳遞給pipeline：

result = pipe(sample, generate_kwargs={"language": "english"})

默認情況下，Whisper執行語音轉錄任務，即源音頻語言與目標文本語言相同。要執行語音翻譯任務，即目標文本為英語，請將任務設置為"translate"：

result = pipe(sample, generate_kwargs={"task": "translate"})

最後，可以讓模型預測時間戳。要獲取句子級別的時間戳，請傳遞return_timestamps參數：

result = pipe(sample, return_timestamps=True)
print(result["chunks"])

要獲取單詞級別的時間戳：

result = pipe(sample, return_timestamps="word")
print(result["chunks"])

上述參數可以單獨使用，也可以組合使用。例如，要執行源音頻為法語的語音轉錄任務，並返回句子級別的時間戳，可以使用以下代碼：

result = pipe(sample, return_timestamps=True, generate_kwargs={"language": "french", "task": "translate"})
print(result["chunks"])

要更精細地控制生成參數，請直接使用模型 + 處理器API：

```python import torch from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor from datasets import Audio, load_dataset

device = "cuda:0" if torch.cuda.is_available() else "cpu" torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained( model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True ) model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

dataset = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation") dataset = dataset.cast_column("audio", Audio(processor.feature_extractor.sampling_rate)) sample = dataset[0]["audio"]

inputs = processor( sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt", truncation=False, padding="longest", return_attention_mask=True, ) inputs = inputs.to(device, dtype=torch_dtype)

gen_kwargs = { "max_new_tokens": 448, "num_beams": 1, "condition_on_prev_tokens": False, "compression_ratio_threshold": 1.35, # zlib壓縮比閾值（在標記空間中） "temperature": (0.0, 0.2, 0.4, 0.6, 0.8, 1.0), "logprob_threshold": -1.0, "no_speech_threshold": 0.6, "return_timestamps": True, }

pred_ids = model.generate(**inputs, **gen_kwargs) pred_text = processor.batch_decode(pred_ids, skip_special_tokens=True, decode_with_timestamps=False)

print(pred_text)

</details>

## ✨ 主要特性
### 支持多語言
支持以下多種語言：
- en、zh、de、es、ru、ko、fr、ja、pt、tr、pl、ca、nl、ar、sv、it、id、hi、fi、vi、he、uk、el、ms、cs、ro、da、hu、ta、'no'、th、ur、hr、bg、lt、la、mi、ml、cy、sk、te、fa、lv、bn、sr、az、sl、kn、et、mk、br、eu、is、hy、ne、mn、bs、kk、sq、sw、gl、mr、pa、si、km、sn、yo、so、af、oc、ka、be、tg、sd、gu、am、yi、lo、uz、fo、ht、ps、tk、nn、mt、sa、lb、my、bo、tl、mg、as、tt、haw、ln、ha、ba、jw、su

### 速度和內存優化
可以對Whisper應用額外的速度和內存優化，以進一步降低推理速度和顯存要求。
#### 分塊長格式轉錄
Whisper的接收域為30秒。要轉錄超過此長度的音頻，需要使用以下兩種長格式算法之一：
1. **順序算法**：使用“滑動窗口”進行緩衝推理，逐個轉錄30秒的音頻片段。
2. **分塊算法**：將長音頻文件分割成較短的文件（片段之間有小的重疊），獨立轉錄每個片段，並在邊界處拼接生成的轉錄結果。

在以下任何一種情況下，應使用順序長格式算法：
1. 轉錄準確性是最重要的因素，而速度不是主要考慮因素。
2. 正在轉錄**批量**長音頻文件，在這種情況下，順序算法的延遲與分塊算法相當，但準確率可提高多達0.5%。

相反，在以下情況下應使用分塊算法：
1. 轉錄速度是最重要的因素。
2. 正在轉錄**單個**長音頻文件。

默認情況下，Transformers使用順序算法。要啟用分塊算法，請將`chunk_length_s`參數傳遞給`pipeline`。對於large-v3，30秒的分塊長度是最優的。要對長音頻文件進行批處理，請傳遞參數`batch_size`：
```python
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset


device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    chunk_length_s=30,
    batch_size=16,  # 推理的批量大小 - 根據設備進行設置
    torch_dtype=torch_dtype,
    device=device,
)

dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]

result = pipe(sample)
print(result["text"])

Torch編譯

Whisper前向傳播與torch.compile兼容，可實現4.5倍的加速。

注意：torch.compile目前與分塊長格式算法或Flash Attention 2不兼容⚠️

import torch
from torch.nn.attention import SDPBackend, sdpa_kernel
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
from tqdm import tqdm

torch.set_float32_matmul_precision("high")

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True
).to(device)

# 啟用靜態緩存並編譯前向傳播
model.generation_config.cache_implementation = "static"
model.generation_config.max_new_tokens = 256
model.forward = torch.compile(model.forward, mode="reduce-overhead", fullgraph=True)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device=device,
)

dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]

# 2次預熱步驟
for _ in tqdm(range(2), desc="Warm-up step"):
    with sdpa_kernel(SDPBackend.MATH):
        result = pipe(sample.copy(), generate_kwargs={"min_new_tokens": 256, "max_new_tokens": 256})

# 快速運行
with sdpa_kernel(SDPBackend.MATH):
    result = pipe(sample.copy())

print(result["text"])

Flash Attention 2

如果你的GPU支持，並且不使用torch.compile，我們建議使用Flash-Attention 2。要使用它，首先安裝Flash Attention：

pip install flash-attn --no-build-isolation

然後將attn_implementation="flash_attention_2"傳遞給from_pretrained：

model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, attn_implementation="flash_attention_2")

Torch縮放點積注意力（SDPA）

如果你的GPU不支持Flash Attention，我們建議使用PyTorch的縮放點積注意力（SDPA）。對於PyTorch 2.1.1或更高版本，此注意力實現默認啟用。要檢查你是否有兼容的PyTorch版本，請運行以下Python代碼片段：

from transformers.utils import is_torch_sdpa_available

print(is_torch_sdpa_available())

如果上述代碼返回True，則表示你已安裝有效的PyTorch版本，並且SDPA默認啟用。如果返回False，則需要根據官方說明升級你的PyTorch版本。

安裝有效的PyTorch版本後，SDPA默認啟用。也可以通過指定attn_implementation="sdpa"顯式設置：

model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, attn_implementation="sdpa")

有關如何使用SDPA的更多信息，請參閱Transformers SDPA文檔。

📚 詳細文檔

模型細節

Whisper是一個基於Transformer的編碼器 - 解碼器模型，也稱為序列到序列模型。Whisper模型有兩種類型：僅英語模型和多語言模型。僅英語模型是在英語語音識別任務上訓練的。多語言模型則同時在多語言語音識別和語音翻譯任務上進行訓練。對於語音識別，模型預測與音頻相同語言的轉錄結果。對於語音翻譯，模型預測與音頻不同語言的轉錄結果。

Whisper檢查點有五種不同模型大小的配置。最小的四種模型有僅英語和多語言兩種版本。最大的檢查點僅為多語言版本。所有十個預訓練檢查點都可以在Hugging Face Hub上找到。以下表格總結了這些檢查點，並提供了Hub上模型的鏈接：

大小	參數數量	僅英語版本	多語言版本
tiny	39 M	✓	✓
base	74 M	✓	✓
small	244 M	✓	✓
medium	769 M	✓	✓
large	1550 M	x	✓
large-v2	1550 M	x	✓
large-v3	1550 M	x	✓
large-v3-turbo	809 M	x	✓

微調

預訓練的Whisper模型對不同的數據集和領域表現出強大的泛化能力。然而，通過微調，可以進一步提高其在某些語言和任務上的預測能力。博客文章Fine-Tune Whisper with 🤗 Transformers提供了一個逐步指南，介紹如何使用低至5小時的標註數據對Whisper模型進行微調。

評估使用

這些模型的主要目標用戶是研究當前模型的魯棒性、泛化能力、性能、偏差和限制的AI研究人員。然而，Whisper作為一種自動語音識別解決方案，對開發者來說也可能非常有用，特別是在英語語音識別方面。我們認識到，一旦模型發佈，就不可能將其使用限制在“預期”用途上，也難以制定合理的準則來界定什麼是研究，什麼不是研究。

這些模型主要在自動語音識別和語音翻譯成英語的任務上進行訓練和評估。它們在約10種語言的自動語音識別任務中表現出色。它們可能還具備其他能力，特別是在某些任務（如語音活動檢測、說話人分類或說話人分割）上進行微調後，但在這些領域尚未進行充分評估。我們強烈建議用戶在特定的上下文和領域中對模型進行充分評估後再進行部署。

特別要注意的是，我們警告不要使用Whisper模型在未經個人同意的情況下轉錄其錄音，或聲稱使用這些模型進行任何主觀分類。我們不建議在高風險領域（如決策場景）中使用，因為準確性的缺陷可能導致結果出現明顯的問題。這些模型旨在轉錄和翻譯語音，將其用於分類不僅未經過評估，而且不合適，特別是用於推斷人類屬性時。

性能和侷限性

我們的研究表明，與許多現有的自動語音識別系統相比，這些模型在應對口音、背景噪音、專業語言方面表現出更強的魯棒性，並且能夠實現多種語言到英語的零樣本翻譯；在語音識別和翻譯方面的準確性接近當前的先進水平。

然而，由於這些模型是使用大規模噪聲數據進行弱監督訓練的，其預測結果可能包含音頻輸入中實際未說出的文本（即幻覺現象）。我們推測，這是因為模型基於其對語言的一般知識，在嘗試預測音頻中的下一個單詞的同時，也試圖轉錄音頻本身。

我們的模型在不同語言上的表現參差不齊，對於資源較少和/或可發現性較低的語言，或者訓練數據較少的語言，我們觀察到其準確性較低。模型在特定語言的不同口音和方言上也表現出差異，這可能包括不同性別、種族、年齡或其他人口統計學標準的說話人之間的單詞錯誤率較高。我們的完整評估結果見本次發佈隨附的論文。

此外，模型的序列到序列架構使其容易生成重複文本，儘管可以通過束搜索和溫度調度在一定程度上緩解，但無法完全消除。論文中對這些侷限性進行了進一步分析。在資源較少和/或可發現性較低的語言上，這種行為和幻覺現象可能會更嚴重。

更廣泛的影響

我們預計Whisper模型的轉錄能力可用於改進無障礙工具。雖然Whisper模型本身不能直接用於即時轉錄，但其速度和規模表明，其他人可以在此基礎上構建允許接近即時語音識別和翻譯的應用程序。基於Whisper模型構建的有益應用程序的真正價值表明，這些模型的不同表現可能會產生實際的經濟影響。

發佈Whisper還存在潛在的雙重用途問題。雖然我們希望這項技術主要用於有益的目的，但提高自動語音識別技術的可訪問性可能會使更多人能夠構建強大的監控技術或擴大現有的監控工作，因為其速度和準確性使得對大量音頻通信進行經濟實惠的自動轉錄和翻譯成為可能。此外，這些模型可能具備直接識別特定個人的能力，這反過來又帶來了與雙重用途和不同表現相關的安全問題。實際上，我們預計轉錄成本不是擴大監控項目的限制因素。

🔧 技術細節

BibTeX引用和引用信息

@misc{radford2022whisper,
  doi = {10.48550/ARXIV.2212.04356},
  url = {https://arxiv.org/abs/2212.04356},
  author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
  title = {Robust Speech Recognition via Large-Scale Weak Supervision},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}