Distil-large-v3.5-ct2オープンソース音声認識モデル - 無料で高効率な音声認識を実現

ホーム

Distil Large V3.5 Ct2

distil-whisperによって開発

Distil-WhisperはWhisperモデルの蒸留版で、大規模な擬似ラベル技術により高効率な音声認識を実現

音声認識英語オープンソースライセンス:MIT #高効率音声認識 #多言語対応 #低遅延推論

ダウンロード数 264

リリース時間 : 3/14/2025

モデル概要

Whisperモデルを蒸留最適化した高効率音声認識モデルで、CTranslate2フォーマットに変換することで更に高速な推論を実現

モデル特徴

高効率推論

CTranslate2エンジンで最適化され、オリジナルWhisperモデルより高速な推論を実現

知識蒸留

大規模擬似ラベル技術でWhisperモデルから知識を蒸留し、高精度を維持

ハードウェア適応

CPUとGPUの実行をサポートし、最適な計算タイプ(float16/float32)を自動選択

モデル能力

英語音声認識

音声ファイル文字起こし

リアルタイム音声テキスト変換

使用事例

音声文字起こし

会議議事録

会議録音を自動で文字記録に変換

ポッドキャスト文字起こし

ポッドキャスト音声コンテンツを検索可能なテキストに変換

支援ツール

字幕生成

動画コンテンツに自動で英語字幕を生成

🚀 Distil-Whisper: CTranslate2用のDistil-Large-v3.5

このリポジトリには、distil-large-v3.5のモデルウェイトがCTranslate2形式に変換されて格納されています。CTranslate2はTransformerモデル用の高速推論エンジンであり、Faster-Whisperパッケージでサポートされているバックエンドです。

🚀 クイックスタート

Faster-Whisperでこのモデルを使用するには、まず公式の手順に従ってPyPiパッケージをインストールします。

この例では、Hugging Face Hubから玩具用の音声データセットをロードするために🤗 Datasetsもインストールします。

pip install --upgrade pip
pip install --upgrade git+https://github.com/SYSTRAN/faster-whisper datasets[audio]

以下のコードスニペットは、distil-large-v3モデルをロードし、LibriSpeech ASRデータセットのサンプルファイルに対して推論を実行します。

import torch
from faster_whisper import WhisperModel
from datasets import load_dataset

# define our torch configuration
device = "cuda" if torch.cuda.is_available() else "cpu"
compute_type = "float16" if torch.cuda.is_available() else "float32"

# load model on GPU if available, else cpu
model = WhisperModel("distil-whisper/distil-large-v3.5-ct2", device=device, compute_type=compute_type)

# load toy dataset for example
dataset = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
sample = dataset[1]["audio"]["path"]

segments, info = model.transcribe(sample, beam_size=5, language="en")

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

ローカルの音声ファイルを文字起こしするには、transcribe関数のaudio引数に音声ファイルのパスを渡すだけです。

segments, info = model.transcribe("audio.mp3", beam_size=5, language="en")

💻 使用例

基本的な使用法

import torch
from faster_whisper import WhisperModel
from datasets import load_dataset

# define our torch configuration
device = "cuda" if torch.cuda.is_available() else "cpu"
compute_type = "float16" if torch.cuda.is_available() else "float32"

# load model on GPU if available, else cpu
model = WhisperModel("distil-whisper/distil-large-v3.5-ct2", device=device, compute_type=compute_type)

# load toy dataset for example
dataset = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
sample = dataset[1]["audio"]["path"]

segments, info = model.transcribe(sample, beam_size=5, language="en")

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

高度な使用法

segments, info = model.transcribe("audio.mp3", beam_size=5, language="en")

📚 ドキュメント

Distil-Large-v3.5モデルの詳細については、元のモデルカードを参照してください。

📄 ライセンス

Distil-Whisperは、OpenAIのWhisperモデルからMITライセンスを引き継いでいます。

引用

このモデルを使用する場合は、Distil-Whisper論文を引用することを検討してください。

@misc{gandhi2023distilwhisper,
      title={Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling}, 
      author={Sanchit Gandhi and Patrick von Platen and Alexander M. Rush},
      year={2023},
      eprint={2311.00430},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}