C

Cnn8rnn Audioset Sed

由wsntxxn開發
基於AudioSet預訓練並在AudioSet-strong上微調的CRNN聲音事件檢測模型
下載量 229
發布時間 : 8/13/2024

模型概述

這是一個用於聲音事件檢測的深度學習模型,能夠識別音頻中的特定事件類別,如語音、音樂或環境聲音等。

模型特點

高時間分辨率
模型具有40毫秒的時間分辨率,能夠精確檢測音頻事件的時間位置
多類別識別
可識別447種不同的音頻事件類別,包括各種語音、音樂和環境聲音
雙輸出模式
同時提供幀級輸出和片段級輸出,滿足不同精度的檢測需求

模型能力

音頻分類
聲音事件檢測
多類別音頻識別
時間定位音頻事件

使用案例

音頻內容分析
語音檢測
檢測音頻中男性或女性語音的存在
可輸出特定語音類別的概率序列
環境聲音監測
識別環境中的特定聲音事件,如警報聲、動物叫聲等
可標記聲音事件的發生時間和類別
媒體內容分析
視頻自動標記
通過分析視頻中的音頻軌道自動生成內容標籤
提高視頻內容檢索效率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase