whisper-small-ko-low-qual-voice開源韓語語音識別模型

首頁

Whisper Small Ko Low Qual Voice

由kimthegarden開發

基於Whisper-small架構微調的韓語自動語音識別模型，在韓語語音識別任務上表現出色。

語音識別

Safetensors

韓語開源協議:MIT #韓語語音識別 #高精度轉錄 #離線批量處理

下載量 211

發布時間 : 7/2/2025

模型概述

本模型是基於Whisper-small架構微調的韓語自動語音識別模型，適用於多種韓語語音處理場景，如對話、廣播、新聞等。

模型特點

精準識別

在韓語語音識別任務上表現出色，能準確轉錄韓語語音內容。

多場景適用

可用於離線或批量轉錄韓語語音數據，也可集成到韓語語音助手系統中。

可擴展性強

支持在特定領域數據集上進一步微調，如法律、醫療、教育等。

模型能力

韓語語音識別

語音轉錄

語音助手集成

使用案例

語音轉錄

離線語音轉錄

用於批量轉錄韓語語音數據。

語音助手集成

集成到韓語語音助手系統中。

領域特定應用

法律領域

在法律領域數據集上進一步微調，用於法律語音轉錄。

醫療領域

在醫療領域數據集上進一步微調，用於醫療語音轉錄。

🚀 whisper-small-ko-finetuned 模型卡片

本項目是基於預訓練模型微調得到的韓語自動語音識別模型，在韓語語音識別任務上表現出色，可用於多種韓語語音處理場景。

🚀 快速開始

from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torch

model = WhisperForConditionalGeneration.from_pretrained("your-username/whisper-small-ko-finetuned")
processor = WhisperProcessor.from_pretrained("your-username/whisper-small-ko-finetuned")

# Input: 16kHz waveform (float32 numpy or tensor)
inputs = processor(audio_waveform, sampling_rate=16000, return_tensors="pt")

with torch.no_grad():
    predicted_ids = model.generate(inputs.input_features)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription[0])

✨ 主要特性

精準識別：在韓語語音識別任務上表現出色，能準確轉錄韓語語音內容。
多場景適用：可用於離線或批量轉錄韓語語音數據，也可集成到韓語語音助手系統中。
可擴展性強：支持在特定領域數據集上進一步微調，如法律、醫療、教育等。

📦 安裝指南

暫未提供相關安裝步驟。

💻 使用示例

基礎用法

from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torch

model = WhisperForConditionalGeneration.from_pretrained("your-username/whisper-small-ko-finetuned")
processor = WhisperProcessor.from_pretrained("your-username/whisper-small-ko-finetuned")

# Input: 16kHz waveform (float32 numpy or tensor)
inputs = processor(audio_waveform, sampling_rate=16000, return_tensors="pt")

with torch.no_grad():
    predicted_ids = model.generate(inputs.input_features)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription[0])

高級用法

暫未提供相關高級用法示例。

📚 詳細文檔

模型詳情

本模型基於 Whisper-small 架構，使用 Hugging Face Transformers 和 PyTorch 在 62,327 對韓語音頻 - 轉錄對上進行微調。它專為通用領域的韓語語音識別而設計，適用於對話、廣播、新聞等場景。

屬性	詳情
開發者	[Jeongwon Kim]
分享者	[kimthegarden]
模型類型	編碼器 - 解碼器 Transformer (WhisperForConditionalGeneration)
支持語言	韓語 (`ko`)
許可證	MIT
微調基礎模型	`SungBeom/whisper-small-ko`