Audiobox-aesthetics開源模型 - 免費實現語音、音樂和聲音自動質量評估

首頁

Audiobox Aesthetics

由facebook開發

統一的語音、音樂和聲音自動質量評估模型

音頻分類

Safetensors

#音頻質量評估 #多模態評分 #自動美學分析

下載量 56.27k

發布時間 : 2/13/2025

模型概述

該模型提供對語音、音樂和聲音內容的自動質量評估，包含四個評估軸：內容享受度、內容有用性、製作複雜度和製作質量。

模型特點

多維度評估

提供四個獨立的評估軸，全面覆蓋音頻內容的不同質量維度

廣泛適用性

支持語音、音樂和一般聲音內容的評估

高效預測

支持批量處理，可高效評估大量音頻文件

模型能力

音頻質量評估

語音內容評分

音樂內容評分

聲音內容評分

批量處理音頻

使用案例

內容審核

音頻內容質量篩選

自動篩選高質量語音內容

提高內容平臺整體質量

音樂製作

音樂作品評估

評估音樂作品的製作質量和聽眾享受度

輔助音樂製作決策

🚀 音頻美學評估模型（audiobox-aesthetics）

本模型能夠對語音、音樂和聲音進行統一的自動質量評估，為音頻質量分析提供了高效且準確的解決方案，在音頻處理領域具有重要價值。

🚀 快速開始

此模型已通過 PytorchModelHubMixin 集成推送到模型中心：

代碼：https://github.com/facebookresearch/audiobox-aesthetics
論文：https://huggingface.co/papers/2502.05139

✨ 主要特性

實現了對語音、音樂和聲音的統一自動質量評估。
提供了預訓練模型，方便快速使用。
支持通過命令行界面（CLI）和 Python 腳本進行預測。

📦 安裝指南

通過 pip 安裝

pip install audiobox_aesthetics

從源代碼直接安裝

本倉庫需要 Python 3.9 和 Pytorch 2.2 或更高版本。安裝時，你可以克隆此倉庫並運行以下命令：

pip install -e .

📚 詳細文檔

預訓練模型

模型	S3 鏈接	HuggingFace 鏈接
全維度	checkpoint.pt	HF 倉庫

評估數據集

我們發佈了包含 4 個美學標註分數維度的評估數據集。以下展示瞭如何將每個標註映射到實際音頻文件的示例：

{
 "data_path": "/your_path/LibriTTS/train-clean-100/1363/139304/1363_139304_000011_000000.wav", 
 "Production_Quality": [8.0, 8.0, 8.0, 8.0, 8.0, 9.0, 8.0, 5.0, 8.0, 8.0], 
 "Production_Complexity": [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0], 
 "Content_Enjoyment": [8.0, 6.0, 8.0, 5.0, 8.0, 8.0, 8.0, 6.0, 8.0, 6.0], 
 "Content_Usefulness": [8.0, 6.0, 8.0, 7.0, 8.0, 9.0, 8.0, 6.0, 10.0, 7.0]
}

從 data_path 識別數據集名稱。在示例中，為 LibriTTS。
將 /your_path/ 替換為你下載的 LibriTTS 目錄。
每個維度包含 10 個由 10 個不同人工標註者標註的分數。

數據集名稱	URL
LibriTTS	https://openslr.org/60/
cv-corpus-13.0-2023-03-09	https://commonvoice.mozilla.org/en/datasets
EARS	https://sp-uhh.github.io/ears_dataset/
MUSDB18	https://sigsep.github.io/datasets/musdb.html
musiccaps	https://www.kaggle.com/datasets/googleai/musiccaps
(audioset) unbalanced_train_segments	https://research.google.com/audioset/dataset/index.html
PAM	https://zenodo.org/records/10737388

💻 使用示例

基礎用法

通過命令行界面（CLI）進行預測

創建一個 jsonl 文件，格式如下：

{"path":"/path/to/a.wav"}
{"path":"/path/to/b.flac"}
...
{"path":"/path/to/z.wav"}

或者，如果你只想從特定時間戳預測美學分數：

{"path":"/path/to/a.wav", "start_time":0, "end_time": 5}
{"path":"/path/to/b.flac", "start_time":3, "end_time": 10}

並將其保存為 input.jsonl。

運行以下命令：

audio-aes input.jsonl --batch-size 100 > output.jsonl

如果你尚未下載檢查點，腳本將嘗試自動下載。否則，你可以通過 --ckpt /path/to/checkpoint.pt 提供路徑。

如果你使用 SLURM，運行以下命令：

audio-aes input.jsonl --batch-size 100 --remote --array 5 --job-dir $HOME/slurm_logs/ --chunk 1000 > output.jsonl

請根據你的節點使用 --slurm-gpu, --slurm-cpu 調整 CPU 和 GPU 設置。

輸出文件將包含與 input.jsonl 相同數量的行。每行包含 4 個預測維度的 JSON 格式字典。更多信息請查看以下表格：

維度名稱	全稱
CE	內容愉悅度（Content Enjoyment）
CU	內容有用性（Content Usefulness）
PC	製作複雜度（Production Complexity）
PQ	製作質量（Production Quality）

輸出行示例：

{"CE": 5.146, "CU": 5.779, "PC": 2.148, "PQ": 7.220}

（可選）如果你只想提取一個維度（例如 CE），可以使用 jq 工具對輸出文件進行後處理： jq '.CE' output.jsonl > output-aes_ce.txt

從 Python 腳本或解釋器進行預測

從文件路徑進行推理

from audiobox_aesthetics.infer import initialize_predictor
predictor = initialize_predictor()
predictor.forward([{"path":"/path/to/a.wav"}, {"path":"/path/to/b.flac"}])

從 torch 張量進行推理

import torchaudio
from audiobox_aesthetics.infer import initialize_predictor
predictor = initialize_predictor()
wav, sr = torchaudio.load("/path/to/a.wav")
predictor.forward([{"path":wav, "sample_rate": sr}])

📄 許可證

audiobox-aesthetics 項目的大部分內容遵循 CC-BY 4.0 許可證，如 LICENSE 文件所示。然而，項目的部分內容遵循單獨的許可證條款：https://github.com/microsoft/unilm 遵循 MIT 許可證。

📚 引用

如果你發現此倉庫有用，請引用以下 BibTeX 條目：

@article{tjandra2025aes,
    title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
    author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
    year={2025},
    url={https://arxiv.org/abs/2502.05139}
}