stt_fr_conformer_ctc_large開源法語語音識別模型

首頁

Stt Fr Conformer Ctc Large

由nvidia開發

這是一個基於Conformer架構的法語自動語音識別(ASR)大模型，採用CTC損失函數，在超過1500小時的法語語音數據上訓練而成。

語音識別

PyTorch

法語#法語語音識別 #Conformer架構 #多領域數據集

下載量 361

發布時間 : 6/28/2022

模型概述

該模型用於法語語音識別任務，能夠將法語語音轉換為文本，支持16kHz單聲道音頻輸入。

模型特點

高性能識別

在多個測試集上表現出色，如MCV7.0測試集WER僅9.63%，MLS測試集WER僅4.91%

大規模訓練數據

在超過1500小時的法語語音數據上訓練，涵蓋多個領域

Riva兼容

支持通過NVIDIA Riva進行生產級服務器部署

非自迴歸架構

採用Conformer-CTC架構，實現高效推理

模型能力

法語語音識別

音頻轉錄

批量語音處理

使用案例

語音轉錄

法語語音轉文字

將法語語音內容轉換為文本

高準確率的轉錄結果

語音助手

法語語音交互

為法語語音助手提供語音識別能力

🚀 NVIDIA Conformer-CTC Large (fr)

NVIDIA Conformer-CTC Large (fr) 模型基於超過1500小時的法語語音數據進行訓練，是 Conformer 的非自迴歸“大型”變體，擁有約1.2億個參數，可用於自動語音識別任務，還能與 NVIDIA Riva 兼容以進行生產級服務器部署。

🚀 快速開始

此模型可在 NeMo 工具包中使用，可作為預訓練檢查點進行推理或在其他數據集上進行微調。要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo，建議在安裝最新版本的 PyTorch 之後進行安裝。

pip install nemo_toolkit['all']

自動實例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_fr_conformer_ctc_large")

使用 Python 進行轉錄

首先，獲取一個示例音頻文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後，進行轉錄：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_fr_conformer_ctc_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

✨ 主要特性

數據豐富：在包含超過1500小時法語語音的複合數據集上訓練。
模型規模大：Conformer 的非自迴歸“大型”變體，約1.2億個參數。
兼容性強：與 NVIDIA Riva 兼容，可用於生產級服務器部署。

📦 安裝指南

要使用該模型，需安裝 NVIDIA NeMo，建議在安裝最新版本的 PyTorch 之後進行安裝：

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_fr_conformer_ctc_large")

高級用法

轉錄單個音頻文件

import nemo.collections.asr as nemo_asr
import os

# 下載示例音頻文件
os.system("wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav")

# 加載模型
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_fr_conformer_ctc_large")

# 轉錄音頻
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_fr_conformer_ctc_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"