Kotoba Whisper V2.0 Faster_分類| AIbase模型庫

首頁

Kotoba Whisper V2.0 Faster

由kotoba-tech開發

適用於CTranslate2的Whisper語音識別模型，專為日語優化，提供高效的語音轉文本功能。

語音識別日語開源協議:MIT #日語語音識別 #高效推理 #長音頻處理

下載量 202

發布時間 : 9/17/2024

模型概述

該模型是kotoba-whisper-v2.0的CTranslate2轉換版本，支持日語語音識別，適用於需要快速、高效語音轉文本的應用場景。

模型特點

高效推理

通過CTranslate2優化，提供比原始Whisper模型更快的推理速度。

日語優化

專為日語語音識別優化，提供更準確的轉錄結果。

FP16量化

模型權重以FP16格式保存，支持靈活的計算類型選擇。

模型能力

日語語音識別

長格式音頻處理

即時轉錄

使用案例

語音轉文本

日語會議記錄

將日語會議錄音自動轉錄為文本，便於後續整理和查閱。

高效準確的轉錄結果，支持長時間錄音處理。

日語播客轉錄

將日語播客內容轉錄為文本，便於內容索引和搜索。

支持分塊處理，提高長音頻轉錄的準確性。

🚀 Whisper kotoba-whisper-v2.0 用於 CTranslate2 模型

本倉庫包含將 kotoba-tech/kotoba-whisper-v2.0 轉換為 CTranslate2 模型格式的內容。

該模型可用於 CTranslate2 或基於 CTranslate2 的項目，如 faster-whisper。

🚀 快速開始

安裝庫並下載示例音頻

pip install faster-whisper
wget https://huggingface.co/kotoba-tech/kotoba-whisper-v1.0-ggml/resolve/main/sample_ja_speech.wav

使用 kotoba-whisper-v2.0-faster 進行推理

from faster_whisper import WhisperModel

model = WhisperModel("kotoba-tech/kotoba-whisper-v2.0-faster")

segments, info = model.transcribe("sample_ja_speech.wav", language="ja", chunk_length=15, condition_on_previous_text=False)
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

💻 使用示例

基礎用法

from faster_whisper import WhisperModel

model = WhisperModel("kotoba-tech/kotoba-whisper-v2.0-faster")

segments, info = model.transcribe("sample_ja_speech.wav", language="ja", chunk_length=15, condition_on_previous_text=False)
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

🔧 技術細節

基準測試

我們在以下配置的 MacBook Pro 上，使用四個不同的日語語音音頻測量了不同 kotoba-whisper-v2.0 實現的推理速度：

Apple M2 Pro
32GB 內存
14 英寸，2023 款
操作系統：Sonoma 版本 14.4.1 (23E224)

音頻文件	音頻時長 (分鐘)	whisper.cpp (秒)	faster-whisper (秒)	hf pipeline (秒)
音頻 1	50.3	581	2601	807
音頻 2	5.6	41	73	61
音頻 3	4.9	30	141	54
音頻 4	5.6	35	126	69

重新運行實驗的腳本可在以下位置找到：

此外，目前 whisper.cpp 和 faster-whisper 支持順序長格式解碼，而只有 Huggingface pipeline 支持分塊長格式解碼，我們通過經驗發現分塊長格式解碼優於順序長格式解碼。

轉換細節

原始模型使用以下命令進行轉換：

ct2-transformers-converter --model kotoba-tech/kotoba-whisper-v2.0 --output_dir kotoba-whisper-v2.0-faster \
    --copy_files tokenizer.json preprocessor_config.json --quantization float16

請注意，模型權重以 FP16 格式保存。在使用 CTranslate2 中的 compute_type 選項加載模型時，可以更改此類型。