Audiobox-aesthetics开源模型 - 免费实现语音、音乐和声音自动质量评估

首页

Audiobox Aesthetics

由 facebook 开发

统一的语音、音乐和声音自动质量评估模型

音频分类

Safetensors

#音频质量评估 #多模态评分 #自动美学分析

下载量 56.27k

发布时间 : 2/13/2025

模型简介

该模型提供对语音、音乐和声音内容的自动质量评估，包含四个评估轴：内容享受度、内容有用性、制作复杂度和制作质量。

模型特点

多维度评估

提供四个独立的评估轴，全面覆盖音频内容的不同质量维度

广泛适用性

支持语音、音乐和一般声音内容的评估

高效预测

支持批量处理，可高效评估大量音频文件

模型能力

音频质量评估

语音内容评分

音乐内容评分

声音内容评分

批量处理音频

使用案例

内容审核

音频内容质量筛选

自动筛选高质量语音内容

提高内容平台整体质量

音乐制作

音乐作品评估

评估音乐作品的制作质量和听众享受度

辅助音乐制作决策

🚀 音频美学评估模型（audiobox-aesthetics）

本模型能够对语音、音乐和声音进行统一的自动质量评估，为音频质量分析提供了高效且准确的解决方案，在音频处理领域具有重要价值。

🚀 快速开始

此模型已通过 PytorchModelHubMixin 集成推送到模型中心：

代码：https://github.com/facebookresearch/audiobox-aesthetics
论文：https://huggingface.co/papers/2502.05139

✨ 主要特性

实现了对语音、音乐和声音的统一自动质量评估。
提供了预训练模型，方便快速使用。
支持通过命令行界面（CLI）和 Python 脚本进行预测。

📦 安装指南

通过 pip 安装

pip install audiobox_aesthetics

从源代码直接安装

本仓库需要 Python 3.9 和 Pytorch 2.2 或更高版本。安装时，你可以克隆此仓库并运行以下命令：

pip install -e .

📚 详细文档

预训练模型

模型	S3 链接	HuggingFace 链接
全维度	checkpoint.pt	HF 仓库

评估数据集

我们发布了包含 4 个美学标注分数维度的评估数据集。以下展示了如何将每个标注映射到实际音频文件的示例：

{
 "data_path": "/your_path/LibriTTS/train-clean-100/1363/139304/1363_139304_000011_000000.wav", 
 "Production_Quality": [8.0, 8.0, 8.0, 8.0, 8.0, 9.0, 8.0, 5.0, 8.0, 8.0], 
 "Production_Complexity": [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0], 
 "Content_Enjoyment": [8.0, 6.0, 8.0, 5.0, 8.0, 8.0, 8.0, 6.0, 8.0, 6.0], 
 "Content_Usefulness": [8.0, 6.0, 8.0, 7.0, 8.0, 9.0, 8.0, 6.0, 10.0, 7.0]
}

从 data_path 识别数据集名称。在示例中，为 LibriTTS。
将 /your_path/ 替换为你下载的 LibriTTS 目录。
每个维度包含 10 个由 10 个不同人工标注者标注的分数。

数据集名称	URL
LibriTTS	https://openslr.org/60/
cv-corpus-13.0-2023-03-09	https://commonvoice.mozilla.org/en/datasets
EARS	https://sp-uhh.github.io/ears_dataset/
MUSDB18	https://sigsep.github.io/datasets/musdb.html
musiccaps	https://www.kaggle.com/datasets/googleai/musiccaps
(audioset) unbalanced_train_segments	https://research.google.com/audioset/dataset/index.html
PAM	https://zenodo.org/records/10737388

💻 使用示例

基础用法

通过命令行界面（CLI）进行预测

创建一个 jsonl 文件，格式如下：

{"path":"/path/to/a.wav"}
{"path":"/path/to/b.flac"}
...
{"path":"/path/to/z.wav"}

或者，如果你只想从特定时间戳预测美学分数：

{"path":"/path/to/a.wav", "start_time":0, "end_time": 5}
{"path":"/path/to/b.flac", "start_time":3, "end_time": 10}

并将其保存为 input.jsonl。

运行以下命令：

audio-aes input.jsonl --batch-size 100 > output.jsonl

如果你尚未下载检查点，脚本将尝试自动下载。否则，你可以通过 --ckpt /path/to/checkpoint.pt 提供路径。

如果你使用 SLURM，运行以下命令：

audio-aes input.jsonl --batch-size 100 --remote --array 5 --job-dir $HOME/slurm_logs/ --chunk 1000 > output.jsonl

请根据你的节点使用 --slurm-gpu, --slurm-cpu 调整 CPU 和 GPU 设置。

输出文件将包含与 input.jsonl 相同数量的行。每行包含 4 个预测维度的 JSON 格式字典。更多信息请查看以下表格：

维度名称	全称
CE	内容愉悦度（Content Enjoyment）
CU	内容有用性（Content Usefulness）
PC	制作复杂度（Production Complexity）
PQ	制作质量（Production Quality）

输出行示例：

{"CE": 5.146, "CU": 5.779, "PC": 2.148, "PQ": 7.220}

（可选）如果你只想提取一个维度（例如 CE），可以使用 jq 工具对输出文件进行后处理： jq '.CE' output.jsonl > output-aes_ce.txt

从 Python 脚本或解释器进行预测

从文件路径进行推理

from audiobox_aesthetics.infer import initialize_predictor
predictor = initialize_predictor()
predictor.forward([{"path":"/path/to/a.wav"}, {"path":"/path/to/b.flac"}])

从 torch 张量进行推理

import torchaudio
from audiobox_aesthetics.infer import initialize_predictor
predictor = initialize_predictor()
wav, sr = torchaudio.load("/path/to/a.wav")
predictor.forward([{"path":wav, "sample_rate": sr}])

📄 许可证

audiobox-aesthetics 项目的大部分内容遵循 CC-BY 4.0 许可证，如 LICENSE 文件所示。然而，项目的部分内容遵循单独的许可证条款：https://github.com/microsoft/unilm 遵循 MIT 许可证。

📚 引用

如果你发现此仓库有用，请引用以下 BibTeX 条目：

@article{tjandra2025aes,
    title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
    author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
    year={2025},
    url={https://arxiv.org/abs/2502.05139}
}