psst - fairseq - larger - rir開源自動語音識別模型，微調數據助力精準識別

首頁

Psst Fairseq Larger Rir

由birgermoell開發

該模型是基於Wav2vec 2.0架構的自動語音識別(ASR)模型，使用經過房間脈衝響應(RIR)增強的TIMIT數據集子集進行微調。

語音識別

Transformers

英語開源協議:Apache-2.0 #房間脈衝響應增強 #音素級識別 #低幀錯誤率

下載量 30

發布時間 : 4/15/2022

模型概述

專為音素識別任務優化的語音識別模型，適用於嘈雜環境下的語音處理

模型特點

RIR增強訓練數據

使用房間脈衝響應增強的TIMIT數據集，提高了模型在真實環境中的魯棒性

Wav2vec 2.0基礎

基於強大的Wav2vec 2.0架構進行微調，繼承了其優秀的語音特徵提取能力

音素級識別

專注於音素級別的語音識別任務，適合需要精細語音分析的應用場景

模型能力

英語語音識別

音素級別分析

嘈雜環境語音處理

使用案例

語音技術研究

音素識別基準測試

可作為音素識別任務的基準模型進行比較研究

PER: 21.0%, FER: 9.2%

語音增強應用

嘈雜環境語音識別

適用於會議室、公共場所等有回聲和噪聲的環境中的語音識別

屬性	詳情
模型類型	自動語音識別模型
訓練數據	PSST挑戰賽數據，經過房間脈衝響應（RIR）增強的TIMIT數據集子集

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Psst Fairseq Larger Rir

模型概述

模型特點

模型能力

使用案例

🚀 自動語音識別模型

📄 許可證