stt_fr_fastconformer_hybrid_large_pc開源法語語音識別模型

首頁

Stt Fr Fastconformer Hybrid Large Pc

由nvidia開發

這是一個法語自動語音識別模型，基於FastConformer架構，結合了Transducer和CTC解碼器，具有高準確率和多領域適應性。

語音識別

PyTorch

法語#法語語音識別 #混合Transducer-CTC #多領域高精度

下載量 1,331

發布時間 : 5/23/2023

模型概述

該模型能夠轉錄包含大小寫法語字母、空格、句號、逗號和問號的語音。是FastConformer Transducer-CTC模型的'大型'版本，約1.15億參數。

模型特點

混合訓練

結合Transducer和CTC兩種損失函數進行訓練，提高模型魯棒性

優化架構

採用FastConformer架構，具有8倍深度可分離卷積下采樣，效率更高

多數據集訓練

在1800小時法語語音數據上訓練，包括MCV12、MLS和Voxpopuli數據集

標點支持

支持轉錄包含句號、逗號和問號的文本

模型能力

法語語音識別

標點符號識別

大小寫識別

長音頻處理

使用案例

語音轉錄

會議記錄

將法語會議錄音轉換為文字記錄

WER 7.92 (MCV12測試集)

音頻字幕

為法語視頻內容生成字幕

WER 5.21 (MLS測試集)

語音分析

語音數據分析

分析法語語音數據中的關鍵詞和內容

WER 6.49 (VoxPopuli測試集)

🚀 NVIDIA FastConformer-Hybrid Large (fr)

本模型可將法語語音轉錄為包含大小寫字母、空格、句號、逗號和問號的文本。它是FastConformer Transducer - CTC的“大型”版本（約1.15億個參數），是一個基於兩種損失（Transducer（默認）和CTC）訓練的混合模型。

🚀 快速開始

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的Pytorch後再安裝它。

pip install nemo_toolkit['all']

✨ 主要特性

可轉錄法語語音，輸出包含大小寫字母及常見標點。
基於FastConformer Transducer - CTC架構，約1.15億個參數。
混合模型，結合Transducer和CTC兩種損失進行訓練。

📦 安裝指南

要使用該模型，需安裝 NVIDIA NeMo，建議在安裝最新版本的Pytorch後執行以下命令：

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

自動實例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_fr_fastconformer_hybrid_large_pc")

高級用法

轉錄單個音頻文件

首先，獲取一個音頻樣本：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後進行轉錄：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

使用Transducer模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_fr_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

使用CTC模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_fr_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

📚 詳細文檔

輸入

該模型接受16000 Hz單聲道音頻（wav文件）作為輸入。

輸出

該模型為給定的音頻樣本輸出轉錄後的文本字符串。

🔧 技術細節

模型架構

FastConformer [1] 是Conformer模型的優化版本，具有8倍深度可分離卷積下采樣。該模型在多任務設置中使用聯合Transducer和CTC解碼器損失進行訓練。你可以在以下鏈接找到更多關於FastConformer的詳細信息：Fast - Conformer Model 以及關於混合Transducer - CTC訓練的信息：Hybrid Transducer - CTC。