Distil-large-v3.5-ct2開源語音識別模型 - 免費實現高效語音識別

首頁

Distil Large V3.5 Ct2

由distil-whisper開發

Distil-Whisper是Whisper模型的蒸餾版本，通過大規模偽標籤技術實現高效語音識別

語音識別英語開源協議:MIT #高效語音識別 #多語言支持 #低延遲推理

下載量 264

發布時間 : 3/14/2025

模型概述

基於Whisper模型蒸餾優化的高效語音識別模型，轉換為CTranslate2格式以實現更快推理速度

模型特點

高效推理

使用CTranslate2引擎優化，比原始Whisper模型推理速度更快

知識蒸餾

通過大規模偽標籤技術從Whisper模型中蒸餾知識，保持高準確率

硬件適配

支持CPU和GPU運行，自動選擇最優計算類型(float16/float32)

模型能力

英語語音識別

音頻文件轉錄

即時語音轉文本

使用案例

語音轉錄

會議記錄

將會議錄音自動轉換為文字記錄

播客轉錄

將播客音頻內容轉換為可搜索文本

輔助工具

字幕生成

為視頻內容自動生成英文字幕

🚀 Distil-Whisper: 適用於CTranslate2的Distil-Large-v3.5

Distil-Whisper是一個用於自動語音識別的模型，本倉庫包含了 distil-large-v3.5 轉換為 CTranslate2 格式的模型權重。CTranslate2是一個用於Transformer模型的快速推理引擎，也是 Faster-Whisper 包支持的後端。

🚀 快速開始

要在Faster-Whisper中使用該模型，首先需要根據官方說明安裝PyPi包。

在這個示例中，我們還將安裝🤗 Datasets，以便從Hugging Face Hub加載一個玩具音頻數據集：

pip install --upgrade pip
pip install --upgrade git+https://github.com/SYSTRAN/faster-whisper datasets[audio]

💻 使用示例

基礎用法

以下代碼片段加載distil-large-v3模型，並對LibriSpeech ASR數據集中的一個示例文件進行推理：

import torch
from faster_whisper import WhisperModel
from datasets import load_dataset

# define our torch configuration
device = "cuda" if torch.cuda.is_available() else "cpu"
compute_type = "float16" if torch.cuda.is_available() else "float32"

# load model on GPU if available, else cpu
model = WhisperModel("distil-whisper/distil-large-v3.5-ct2", device=device, compute_type=compute_type)

# load toy dataset for example
dataset = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
sample = dataset[1]["audio"]["path"]

segments, info = model.transcribe(sample, beam_size=5, language="en")

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

高級用法

要轉錄本地音頻文件，只需將音頻文件的路徑作為 audio 參數傳遞給 transcribe 方法：

segments, info = model.transcribe("audio.mp3", beam_size=5, language="en")

📚 詳細文檔

有關Distil-Large-v3.5模型的更多信息，請參考原始模型卡片。

📄 許可證

Distil-Whisper繼承了OpenAI的Whisper模型的 MIT許可證。

🔗 引用

如果您使用了這個模型，請考慮引用 Distil-Whisper論文：

@misc{gandhi2023distilwhisper,
      title={Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling}, 
      author={Sanchit Gandhi and Patrick von Platen and Alexander M. Rush},
      year={2023},
      eprint={2311.00430},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}