psst-fairseq-rir開源自動語音識別模型 - 免費部署助力語音內容精準識別

首頁

Psst Fairseq Rir

由birgermoell開發

該模型是基於Wav2vec 2.0基礎架構微調的自動語音識別(ASR)模型，使用經過房間脈衝響應(RIR)增強的TIMIT子集訓練

語音識別

Transformers

英語開源協議:Apache-2.0 #房間脈衝響應增強 #音素錯誤率21.8%#TIMIT子集微調

下載量 30

發布時間 : 4/15/2022

模型概述

用於英語音素識別的語音識別模型，在噪聲增強環境下表現良好

模型特點

噪聲魯棒性

使用RIR增強數據訓練，對噪聲環境下的語音識別具有較強魯棒性

音素級識別

專注於音素級別的語音識別任務，而非單詞或句子識別

基於Wav2vec 2.0

利用Wav2vec 2.0的自監督學習能力，在小規模標註數據上表現良好

模型能力

英語音素識別

噪聲環境語音處理

使用案例

語音技術研究

音素識別基準測試

可作為音素識別任務的基準模型進行比較

PER: 21.8%, FER: 9.6%

教育技術

發音評估

用於語言學習中的發音準確度評估

屬性	詳情
模型類型	自動語音識別模型
訓練數據	PSST Challenge 數據，使用房間脈衝響應（RIR）增強的 TIMIT 數據集子集

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Psst Fairseq Rir

模型概述

模型特點

模型能力

使用案例

🚀 自動語音識別模型

🚀 快速開始

📄 許可證