whisper-persian-turbooo開源模型 - 免費部署助力醫療領域波斯語語音識別

首頁

Whisper Persian Turbooo

由hackergeek98開發

基於OpenAI Whisper-large-v3-turbo優化的波斯語自動語音識別模型，支持醫療領域應用

語音識別

Transformers

其他開源協議:MIT #波斯語語音識別 #醫療場景優化 #長音頻分塊處理

下載量 51

發布時間 : 3/25/2025

模型概述

該模型是針對波斯語優化的自動語音識別(ASR)系統，基於Whisper-large-v3-turbo架構微調，特別適用於醫療領域的語音轉錄需求。

模型特點

波斯語優化

專門針對波斯語語音特性進行優化，提高識別準確率

醫療領域支持

模型標籤顯示特別適用於醫療領域的語音識別場景

長音頻處理

提供自動分割長音頻功能，支持30秒片段處理

模型能力

波斯語語音轉文本

醫療術語識別

長音頻自動分段處理

多種音頻格式支持

使用案例

醫療健康

醫療記錄轉錄

將醫生口述的波斯語醫療記錄轉換為文本

詞錯誤率(WER)0.043175

遠程醫療諮詢記錄

自動轉錄波斯語遠程醫療諮詢內容

🚀 波斯語語音識別模型 - whisper-persian-turbooo

本項目是一個用於自動語音識別的模型，基於openai/whisper-large-v3-turbo微調而來，可處理波斯語語音，適用於醫療等領域。

🚀 快速開始

模型使用環境

數據集：mozilla-foundation/common_voice_11_0
評估指標：wer（詞錯誤率）
基礎模型：openai/whisper-large-v3-turbo
庫名稱：transformers
標籤：medical

訓練信息

屬性	詳情
訓練損失	0.013100
驗證損失	0.043175
訓練輪數	1

許可證

本項目採用 MIT 許可證。

📦 安裝指南

在 Colab 中使用該模型，需要安裝必要的包：

!pip install torch torchaudio transformers pydub google-colab

💻 使用示例

基礎用法

以下是在 Colab 中使用該模型進行波斯語語音轉錄的完整代碼：

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from pydub import AudioSegment
import os
from google.colab import files

# 加載模型和處理器
model_id = "hackergeek98/whisper-persian-turbooo"
device = "cuda" if torch.cuda.is_available() else "cpu"

model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)
processor = AutoProcessor.from_pretrained(model_id)

# 創建管道
whisper_pipe = pipeline(
    "automatic-speech-recognition", model=model, tokenizer=processor.tokenizer, feature_extractor=processor.feature_extractor, device=0 if torch.cuda.is_available() else -1
)

# 將音頻轉換為 WAV 格式
def convert_to_wav(audio_path):
    audio = AudioSegment.from_file(audio_path)
    wav_path = "converted_audio.wav"
    audio.export(wav_path, format="wav")
    return wav_path

# 將長音頻分割成小塊
def split_audio(audio_path, chunk_length_ms=30000):  # 默認：每塊 30 秒
    audio = AudioSegment.from_wav(audio_path)
    chunks = [audio[i:i+chunk_length_ms] for i in range(0, len(audio), chunk_length_ms)]
    chunk_paths = []

    for i, chunk in enumerate(chunks):
        chunk_path = f"chunk_{i}.wav"
        chunk.export(chunk_path, format="wav")
        chunk_paths.append(chunk_path)

    return chunk_paths

# 轉錄長音頻文件
def transcribe_long_audio(audio_path):
    wav_path = convert_to_wav(audio_path)
    chunk_paths = split_audio(wav_path)
    transcription = ""

    for chunk in chunk_paths:
        result = whisper_pipe(chunk)
        transcription += result["text"] + "\n"
        os.remove(chunk)  # 刪除已處理的塊

    os.remove(wav_path)  # 清理原始文件

    # 將轉錄結果保存到文本文件
    text_path = "transcription.txt"
    with open(text_path, "w") as f:
        f.write(transcription)

    return text_path

# 在 Colab 中上傳並處理音頻
uploaded = files.upload()
audio_file = list(uploaded.keys())[0]
transcription_file = transcribe_long_audio(audio_file)

# 下載轉錄文件
files.download(transcription_file)