cat_dog_sounds_classification開源語音識別模型 - 精準區分貓狗聲音，實用免費！

首頁

Cat Dog Sounds Classification

由dima806開發

基於wav2vec 2.0架構的語音識別基礎模型，在960小時的英語語音數據上預訓練

音頻分類

Transformers

開源協議:Apache-2.0 #音頻分類 #寵物聲音識別 #wav2vec2-base

下載量 25

發布時間 : 8/26/2023

模型概述

該模型是一個自動語音識別(ASR)模型，能夠將英語語音轉換為文本。基於Transformer架構，適用於通用語音識別任務。

模型特點

端到端語音識別

直接從原始音頻波形學習，無需人工設計的特徵提取

自監督預訓練

利用大量無標註語音數據進行預訓練，提高模型泛化能力

高效Transformer架構

採用改進的Transformer結構，優化語音序列處理效率

模型能力

英語語音識別

語音轉文本

連續語音識別

使用案例

語音轉錄

會議記錄自動化

自動將會議錄音轉換為文字記錄

字幕生成

為視頻內容自動生成英文字幕

語音助手

語音命令識別

用於智能家居設備的語音控制

屬性	詳情
基礎模型	facebook/wav2vec2-base-960h

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Cat Dog Sounds Classification

模型概述

模型特點

模型能力

使用案例

🚀 貓狗聲音分類器項目

📄 許可證

📚 詳細文檔

📦 模型信息