whisper-large-v3-russian-ties-podlodka-v1.0开源俄语语音识别模型

首页

Whisper Large V3 Russian Ties Podlodka V1.0

由 Apel-sin 开发

基于TIES合并方法融合的俄语语音识别模型，优化电话语音识别效果

语音识别

Transformers

其他#俄语语音识别 #电话录音优化 #TIES模型融合

下载量 96

发布时间 : 3/4/2025

模型简介

该模型是通过TIES合并方法融合两个俄语Whisper模型而成，专注于俄语自动语音识别任务，特别针对电话录音场景进行了优化。

模型特点

TIES合并方法

采用TIES合并方法融合两个俄语Whisper模型，连接密度0.85，编码器和解码器分别采用不同权重

电话语音优化

特别针对电话录音场景进行优化，建议配合音量预处理使用

多数据集训练

基于多个俄语语音数据集训练，包括Common Voice 17.0、Taiga Speech等

模型能力

俄语语音识别

电话录音转写

长音频处理

使用案例

语音转写

电话录音转写

将俄语电话录音转换为文字

优化后的电话语音识别效果

会议记录

将俄语会议录音转换为文字记录

🚀 俄语语音识别合并模型

本项目是基于TIES方法合并的俄语语音识别模型，使用了多个基础模型和数据集，可用于自动语音识别（ASR）任务。

🚀 快速开始

模型信息

属性	详情
基础模型	antony66/whisper-large-v3-russian、bond005/whisper-large-v3-ru-podlodka
语言	ru（俄语）
库名称	transformers
标签	asr、whisper、russian、mergekit、merge
数据集	mozilla-foundation/common_voice_17_0、bond005/taiga_speech_v2、bond005/podlodka_speech、bond005/rulibrispeech
评估指标	wer（词错误率）

新版本信息

新版本已发布：Apel-sin/whisper-large-v3-russian-ties-podlodka-v1.2

📚 详细文档

模型合并细节

此模型使用TIES合并方法进行合并，具体配置如下：

method: ties
parameters:
  ties_density: 0.85
  encoder_weights:
    - 0.65
    - 0.35
  decoder_weights:
    - 0.6
    - 0.4
models:
  model_a: "/mnt/cloud/llm/whisper/whisper-large-v3-russian"
  model_b: "/mnt/cloud/llm/whisper/whisper-large-v3-ru-podlodka"
output_dir: "/mnt/cloud/llm/whisper/whisper-large-v3-russian-ties-podlodka"

简单API服务器

该模型可与简单的OpenAI兼容API服务器一起使用：https://github.com/kreolsky/whisper-api-server/

💻 使用示例

基础用法

为了处理电话通话，强烈建议在进行自动语音识别（ASR）之前对录音进行预处理并调整音量。例如，可以使用以下命令：

sox record.wav -r 8000 record-normalized.wav norm -0.5 compand 0.3,1 -90,-90,-70,-50,-40,-15,0,0 -7 0 0.15

然后，ASR代码示例如下：

import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor, pipeline

torch_dtype = torch.bfloat16 # set your preferred type here 

device = 'cpu'
if torch.cuda.is_available():
    device = 'cuda'
elif torch.backends.mps.is_available():
    device = 'mps'
    setattr(torch.distributed, "is_initialized", lambda : False) # monkey patching
device = torch.device(device)

whisper = WhisperForConditionalGeneration.from_pretrained(
    "antony66/whisper-large-v3-russian", torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True,
    # add attn_implementation="flash_attention_2" if your GPU supports it
)

processor = WhisperProcessor.from_pretrained("antony66/whisper-large-v3-russian")

asr_pipeline = pipeline(
    "automatic-speech-recognition",
    model=whisper,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=256,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

# read your wav file into variable wav. For example:
from io import BufferIO
wav = BytesIO()
with open('record-normalized.wav', 'rb') as f:
    wav.write(f.read())
wav.seek(0)

# get the transcription
asr = asr_pipeline(wav, generate_kwargs={"language": "russian", "max_new_tokens": 256}, return_timestamps=False)

print(asr['text'])