dasheng-base開源音頻編碼器 - 免費處理語音、音樂、環境音等多領域音頻信息

首頁

Dasheng Base

由mispeech開發

大規模通用音頻編碼器，通過自監督學習訓練，支持語音、音樂和環境音等多領域音頻信息處理

音頻分類

Transformers

開源協議:Apache-2.0 #多領域音頻編碼 #自監督預訓練 #12億參數大模型

下載量 273

發布時間 : 6/6/2024

模型概述

大聲是一個基於大規模自監督學習任務訓練的通用音頻編碼器，旨在捕捉跨語音、音樂和環境音等多領域的豐富音頻信息。

模型特點

大規模訓練

訓練數據涵蓋272,356小時多樣化音頻

多領域適用

能夠處理語音、音樂和環境音等多種音頻類型

高性能表現

在HEAR基準測試中展現出顯著性能提升，超越先前成果

模型能力

音頻特徵提取

語音分類

音樂分類

環境音分類

音頻嵌入生成

使用案例

語音處理

語音命令識別

用於識別語音命令

在Speech Commands任務上表現優異

說話人識別

用於識別不同說話人

在VoxLingua任務上表現優異

音樂分析

音樂分類

對音樂類型進行分類

在音樂分類任務中表現優異

環境音分析

環境音分類

對環境聲音進行分類

在環境音分類任務中表現優異

🚀 大聲（Dasheng）：大規模通用音頻編碼器

大聲（Dasheng，即Deep Audio-Signal Holistic Embeddings），或者“大聲”（中文意為“great sound”），是一個在大規模自監督學習任務上訓練的通用音頻編碼器。大聲旨在捕捉包括語音、音樂和環境聲音等各個領域的豐富音頻信息。該模型在272,356小時的多樣化音頻數據上進行訓練，擁有12億個參數，並在HEAR基準測試中展現出顯著的性能提升。在CREMA - D、LibriCount、語音指令、VoxLingua等任務中，大聲超越了以往的工作成果，並且在音樂和環境聲音分類任務中也表現出色。

原始倉庫：https://github.com/RicherMans/Dasheng

dasheng

🚀 快速開始

✨ 主要特性

通用音頻編碼：能夠捕捉語音、音樂和環境聲音等多領域的豐富音頻信息。
大規模訓練：在272,356小時的多樣化音頻數據上訓練，擁有12億個參數。
性能優越：在HEAR基準測試中表現出色，在多個音頻分類任務中超越以往工作。

📦 安裝指南

pip install git+https://github.com/jimbozhang/hf_transformers_custom_model_dasheng.git

💻 使用示例

基礎用法

>>> model_name = "mispeech/dasheng-base"

>>> from dasheng_model.feature_extraction_dasheng import DashengFeatureExtractor
>>> from dasheng_model.modeling_dasheng import DashengModel

>>> feature_extractor = DashengFeatureExtractor.from_pretrained(model_name)
>>> model = DashengModel.from_pretrained(model_name, outputdim=None)  # no linear output layer if `outputdim` is `None`

>>> import torchaudio
>>> audio, sampling_rate = torchaudio.load("resources/JeD5V5aaaoI_931_932.wav")
>>> assert sampling_rate == 16000
>>> audio.shape
torch.Size([1, 16000])   # mono audio of 1 second

>>> inputs = feature_extractor(audio, sampling_rate=sampling_rate, return_tensors="pt")
>>> inputs.input_values.shape
torch.Size([1, 64, 101])   # 64 mel-filterbanks, 101 frames

>>> import torch
>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> outputs.hidden_states.shape
torch.Size([1, 25, 768])   # 25 T-F patches (patch size 64x4, no overlap), before mean-pooling

>>> outputs.logits.shape
torch.Size([1, 768])   # mean-pooled embedding (would be logits from a linear layer if `outputdim` was set)

高級用法

點擊下面的鏈接在Colab中打開微調示例：

example_finetune_esc50.ipynb展示瞭如何在ESC - 50數據集上凍結大聲編碼器並訓練一個線性頭部。

📄 許可證

本項目採用Apache - 2.0許可證。

📚 詳細文檔

如果您在研究中發現大聲模型很有用，請考慮引用以下論文：

@inproceedings{dinkel2023scaling,
  title={Scaling up masked audio encoder learning for general audio classification},
  author={Dinkel, Heinrich and Yan, Zhiyong and Wang, Yongqing and Zhang, Junbo and Wang, Yujun and Wang, Bin},
  booktitle={Interspeech 2024},
  year={2024}
}