faster-whisper-large-v2オープンソース音声認識モデル - 無料でデプロイして、効率的な音声認識を実現

ホーム

Faster Whisper Large V2

guillaumeklnによって開発

これはOpenAI Whisper large-v2モデルのCTranslate2変換バージョンで、効率的な音声認識に使用されます

音声認識複数言語対応オープンソースライセンス:MIT #多言語音声認識 #高精度書き起こし #リアルタイム音声処理

ダウンロード数 161.19k

リリース時間 : 3/23/2023

モデル概要

OpenAI Whisper large-v2モデルを基にCTranslate2フォーマットに変換したもので、多言語音声認識をサポートし、より効率的な推論性能を提供します

モデル特徴

効率的な推論

CTranslate2フォーマット変換により、元のWhisperモデルよりも高速な推論速度を提供します

多言語サポート

100以上の言語の音声認識をサポートします

FP16量子化

モデル重みをFP16フォーマットで保存し、推論時に計算精度を柔軟に調整できます

モデル能力

音声からテキストへ

多言語認識

自動音声認識

使用事例

音声書き起こし

会議議事録

会議の録音を自動的に文字起こしします

高い精度で、複数の言語をサポートします

字幕生成

動画コンテンツに自動的に字幕を生成します

多言語字幕生成をサポートします

音声アシスタント

音声コマンド認識

ユーザーの音声コマンドを認識します

低遅延で高い精度

🚀 CTranslate2用Whisper large-v2モデル

このリポジトリには、openai/whisper-large-v2をCTranslate2モデル形式に変換したものが含まれています。このモデルは、CTranslate2またはfaster-whisperのようなCTranslate2ベースのプロジェクトで使用できます。

🚀 クイックスタート

このモデルは、音声認識タスクに使用できます。CTranslate2やそれに基づくプロジェクトで、高速かつ効率的に音声をテキストに変換することができます。

✨ 主な機能

複数の言語に対応しており、多言語の音声認識が可能です。
CTranslate2モデル形式に変換されているため、高速な推論が可能です。

📦 インストール

このモデルを使用するには、まずCTranslate2とfaster-whisperをインストールする必要があります。以下のコマンドを使用してインストールできます。

pip install ctranslate2 faster-whisper

💻 使用例

基本的な使用法

from faster_whisper import WhisperModel

model = WhisperModel("large-v2")

segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

高度な使用法

# 高度な使用法では、compute_typeを指定することで、モデルの計算タイプを変更できます。
from faster_whisper import WhisperModel

model = WhisperModel("large-v2", compute_type="int8_float16")

segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

🔧 技術詳細

変換詳細

元のモデルは、以下のコマンドで変換されました。

ct2-transformers-converter --model openai/whisper-large-v2 --output_dir faster-whisper-large-v2 \
    --copy_files tokenizer.json --quantization float16

モデルの重みはFP16形式で保存されています。このタイプは、モデルを読み込む際にCTranslate2のcompute_typeオプションを使用して変更できます。