Distil-wav2vec2開源自動語音識別模型 - 體積小速度快免費部署

首頁

Distil Wav2vec2

由OthmaneJ開發

Distil-wav2vec2是wav2vec2模型的蒸餾版本，體積縮小45%，推理速度提升兩倍，適用於自動語音識別任務。

語音識別

Transformers

英語開源協議:Apache-2.0 #輕量語音識別 #高效推理 #低詞錯率

下載量 854

發布時間 : 3/2/2022

模型概述

該模型是wav2vec2模型的輕量化版本，專注於自動語音識別任務，通過蒸餾技術實現了更小的模型體積和更快的推理速度。

模型特點

輕量化

模型體積比原版wav2vec2基礎模型縮小45%，更適合資源有限的環境。

高效推理

推理速度提升兩倍，CPU耗時0.4006秒，GPU耗時0.0046秒（批處理量為64時）。

性能平衡

在保持相對較低詞錯率的同時，顯著提升了運行效率。

模型能力

英語語音識別

音頻轉文本

使用案例

語音轉寫

會議記錄

將會議錄音自動轉寫為文本

詞錯率在Librispeech-test-clean上為0.0983

語音助手

用於輕量級語音助人的語音識別模塊

在資源受限設備上實現快速響應

模型	大小	Librispeech測試集 - clean的WER	Librispeech測試集 - other的WER	CPU上的速度	GPU上的速度
Distil - wav2vec2	197.9 Mb	0.0983	0.2266	0.4006s	0.0046s
wav2vec2 - base	360 Mb	0.0389	0.1047	0.4919s	0.0082s

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Distil Wav2vec2

模型概述

模型特點

模型能力

使用案例

🚀 Distil - wav2vec2

🚀 快速開始

✨ 主要特性

📚 詳細文檔

評估結果

📄 許可證