audio - transcribe開源語音轉錄模型，免費將音頻文件快速轉為文本

首頁

Audio Transcribe

由washeed開發

這是一個基於Transformers的自動語音識別(ASR)模型，用於將音頻文件轉錄為文本。

語音識別 #語音轉文本 #多語言轉錄 #高精度時間戳

下載量 257

發布時間 : 2/3/2024

模型概述

該模型主要用於語音到文本的轉錄任務，支持高效批處理和時間戳返回功能。

模型特點

高效批處理

支持批量處理音頻文件，提高處理效率

時間戳返回

可以返回轉錄文本對應的時間戳信息

GPU加速

支持CUDA加速，提高推理速度

模型能力

音頻轉錄

語音識別

時間戳生成

使用案例

會議記錄

自動會議紀要

將會議錄音自動轉換為文字記錄

提高會議記錄效率，減少人工轉錄時間

媒體制作

視頻字幕生成

為視頻內容自動生成字幕

簡化字幕製作流程

🚀 音頻轉錄模型運行指南

本指南將詳細介紹如何安裝必要的工具和依賴項，並運行音頻轉錄模型。

🚀 快速開始

安裝Chocolatey

在命令提示符（CMD）中運行以下命令來安裝Chocolatey：

@"%SystemRoot%\System32\WindowsPowerShell\v1.0\powershell.exe" -NoProfile -InputFormat None -ExecutionPolicy Bypass -Command "[System.Net.ServicePointManager]::SecurityProtocol = 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))" && SET "PATH=%PATH%;%ALLUSERSPROFILE%\chocolatey\bin"

安裝FFmpeg

安裝Chocolatey後，在CMD中運行以下命令來安裝FFmpeg：

choco install ffmpeg

安裝Python依賴項

在Python集成開發環境（IDE）中運行以下命令來安裝所需的依賴項：

pip install --upgrade pip
pip install --upgrade git+https://github.com/huggingface/transformers.git accelerate datasets[audio]

模型推理

運行以下代碼來進行模型推理：

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "washeed/audio-transcribe"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

result = pipe("audio.mp3")
print(result["text"])

轉錄而非翻譯

如果您想進行轉錄而不是翻譯，只需將以下代碼：

result = pipe("audio.mp3")

替換為：

result = pipe("inference.mp3", generate_kwargs={"task": "transcribe"})

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫