Arabic-Morocco-Speech_To_Text開源模型 - 精準識別摩洛哥口音阿拉伯語語音

首頁

Arabic Morocco Speech To Text

由smerchi開發

基於Whisper-large-v3的阿拉伯語語音識別模型，針對摩洛哥口音優化

語音識別

Transformers

阿拉伯語開源協議:Apache-2.0 #阿拉伯語語音識別 #低資源優化 #即時轉寫

下載量 194

發布時間 : 1/17/2024

模型概述

這是一個基於OpenAI Whisper-large-v3的自動語音識別(ASR)模型，專門針對阿拉伯語特別是摩洛哥口音進行了微調。適用於將阿拉伯語語音轉換為文本的任務。

模型特點

摩洛哥口音優化

針對摩洛哥阿拉伯語口音進行了專門優化

基於Whisper-large-v3

建立在強大的Whisper-large-v3基礎模型上

高效語音識別

支持長音頻分塊處理，提高識別效率

模型能力

阿拉伯語語音識別

長音頻處理

時間戳生成

使用案例

語音轉錄

會議記錄

將阿拉伯語會議錄音轉換為文字記錄

媒體字幕生成

為阿拉伯語視頻內容自動生成字幕

語音分析

客服對話分析

分析摩洛哥客戶的語音反饋

🚀 Whisper_Cleverlytics

Whisper_Cleverlytics是一款語音識別模型，基於openai/whisper-large-v3基礎模型，使用Voice_Cleverlytics數據集進行訓練，適用於阿拉伯語語音識別任務。

🚀 快速開始

若要運行該模型，首先需通過GitHub倉庫安裝Transformers庫。

pip install --upgrade pip
pip install --upgrade git+https://github.com/huggingface/transformers.git accelerate datasets[audio]

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
#from datasets import load_dataset

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "smerchi/Arabic-Morocco-Speech_To_Text"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=False, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

audio="/content/audio.mp3"

%time result = pipe(audio)
print(result["text"],)

💻 使用示例

基礎用法

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
#from datasets import load_dataset

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "smerchi/Arabic-Morocco-Speech_To_Text"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=False, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

audio="/content/audio.mp3"

%time result = pipe(audio)
print(result["text"],)