🚀 Distil-Whisper: CTranslate2用のDistil-Large-v3.5
このリポジトリには、distil-large-v3.5のモデルウェイトがCTranslate2形式に変換されて格納されています。CTranslate2はTransformerモデル用の高速推論エンジンであり、Faster-Whisperパッケージでサポートされているバックエンドです。
🚀 クイックスタート
Faster-Whisperでこのモデルを使用するには、まず公式の手順に従ってPyPiパッケージをインストールします。
この例では、Hugging Face Hubから玩具用の音声データセットをロードするために🤗 Datasetsもインストールします。
pip install --upgrade pip
pip install --upgrade git+https://github.com/SYSTRAN/faster-whisper datasets[audio]
以下のコードスニペットは、distil-large-v3モデルをロードし、LibriSpeech ASRデータセットのサンプルファイルに対して推論を実行します。
import torch
from faster_whisper import WhisperModel
from datasets import load_dataset
device = "cuda" if torch.cuda.is_available() else "cpu"
compute_type = "float16" if torch.cuda.is_available() else "float32"
model = WhisperModel("distil-whisper/distil-large-v3.5-ct2", device=device, compute_type=compute_type)
dataset = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
sample = dataset[1]["audio"]["path"]
segments, info = model.transcribe(sample, beam_size=5, language="en")
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
ローカルの音声ファイルを文字起こしするには、transcribe
関数のaudio
引数に音声ファイルのパスを渡すだけです。
segments, info = model.transcribe("audio.mp3", beam_size=5, language="en")
💻 使用例
基本的な使用法
import torch
from faster_whisper import WhisperModel
from datasets import load_dataset
device = "cuda" if torch.cuda.is_available() else "cpu"
compute_type = "float16" if torch.cuda.is_available() else "float32"
model = WhisperModel("distil-whisper/distil-large-v3.5-ct2", device=device, compute_type=compute_type)
dataset = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
sample = dataset[1]["audio"]["path"]
segments, info = model.transcribe(sample, beam_size=5, language="en")
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
高度な使用法
segments, info = model.transcribe("audio.mp3", beam_size=5, language="en")
📚 ドキュメント
Distil-Large-v3.5モデルの詳細については、元のモデルカードを参照してください。
📄 ライセンス
Distil-Whisperは、OpenAIのWhisperモデルからMITライセンスを引き継いでいます。
引用
このモデルを使用する場合は、Distil-Whisper論文を引用することを検討してください。
@misc{gandhi2023distilwhisper,
title={Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling},
author={Sanchit Gandhi and Patrick von Platen and Alexander M. Rush},
year={2023},
eprint={2311.00430},
archivePrefix={arXiv},
primaryClass={cs.CL}
}