stt_fr_conformer_ctc_large开源法语语音识别模型

首页

Stt Fr Conformer Ctc Large

由 nvidia 开发

这是一个基于Conformer架构的法语自动语音识别(ASR)大模型，采用CTC损失函数，在超过1500小时的法语语音数据上训练而成。

语音识别

PyTorch

法语#法语语音识别 #Conformer架构 #多领域数据集

下载量 361

发布时间 : 6/28/2022

模型简介

该模型用于法语语音识别任务，能够将法语语音转换为文本，支持16kHz单声道音频输入。

模型特点

高性能识别

在多个测试集上表现出色，如MCV7.0测试集WER仅9.63%，MLS测试集WER仅4.91%

大规模训练数据

在超过1500小时的法语语音数据上训练，涵盖多个领域

Riva兼容

支持通过NVIDIA Riva进行生产级服务器部署

非自回归架构

采用Conformer-CTC架构，实现高效推理

模型能力

法语语音识别

音频转录

批量语音处理

使用案例

语音转录

法语语音转文字

将法语语音内容转换为文本

高准确率的转录结果

语音助手

法语语音交互

为法语语音助手提供语音识别能力

🚀 NVIDIA Conformer-CTC Large (fr)

NVIDIA Conformer-CTC Large (fr) 模型基于超过1500小时的法语语音数据进行训练，是 Conformer 的非自回归“大型”变体，拥有约1.2亿个参数，可用于自动语音识别任务，还能与 NVIDIA Riva 兼容以进行生产级服务器部署。

🚀 快速开始

此模型可在 NeMo 工具包中使用，可作为预训练检查点进行推理或在其他数据集上进行微调。要训练、微调或使用该模型，你需要安装 NVIDIA NeMo，建议在安装最新版本的 PyTorch 之后进行安装。

pip install nemo_toolkit['all']

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_fr_conformer_ctc_large")

使用 Python 进行转录

首先，获取一个示例音频文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后，进行转录：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_fr_conformer_ctc_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

✨ 主要特性

数据丰富：在包含超过1500小时法语语音的复合数据集上训练。
模型规模大：Conformer 的非自回归“大型”变体，约1.2亿个参数。
兼容性强：与 NVIDIA Riva 兼容，可用于生产级服务器部署。

📦 安装指南

要使用该模型，需安装 NVIDIA NeMo，建议在安装最新版本的 PyTorch 之后进行安装：

pip install nemo_toolkit['all']

💻 使用示例

基础用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_fr_conformer_ctc_large")

高级用法

转录单个音频文件

import nemo.collections.asr as nemo_asr
import os

# 下载示例音频文件
os.system("wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav")

# 加载模型
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_fr_conformer_ctc_large")

# 转录音频
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_fr_conformer_ctc_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"