Audiobox Aesthetics
统一的语音、音乐和声音自动质量评估模型
下载量 56.27k
发布时间 : 2/13/2025
模型简介
该模型提供对语音、音乐和声音内容的自动质量评估,包含四个评估轴:内容享受度、内容有用性、制作复杂度和制作质量。
模型特点
多维度评估
提供四个独立的评估轴,全面覆盖音频内容的不同质量维度
广泛适用性
支持语音、音乐和一般声音内容的评估
高效预测
支持批量处理,可高效评估大量音频文件
模型能力
音频质量评估
语音内容评分
音乐内容评分
声音内容评分
批量处理音频
使用案例
内容审核
音频内容质量筛选
自动筛选高质量语音内容
提高内容平台整体质量
音乐制作
音乐作品评估
评估音乐作品的制作质量和听众享受度
辅助音乐制作决策
🚀 音频美学评估模型(audiobox-aesthetics)
本模型能够对语音、音乐和声音进行统一的自动质量评估,为音频质量分析提供了高效且准确的解决方案,在音频处理领域具有重要价值。
🚀 快速开始
此模型已通过 PytorchModelHubMixin 集成推送到模型中心:
- 代码:https://github.com/facebookresearch/audiobox-aesthetics
- 论文:https://huggingface.co/papers/2502.05139
✨ 主要特性
- 实现了对语音、音乐和声音的统一自动质量评估。
- 提供了预训练模型,方便快速使用。
- 支持通过命令行界面(CLI)和 Python 脚本进行预测。
📦 安装指南
通过 pip 安装
pip install audiobox_aesthetics
从源代码直接安装
本仓库需要 Python 3.9 和 Pytorch 2.2 或更高版本。安装时,你可以克隆此仓库并运行以下命令:
pip install -e .
📚 详细文档
预训练模型
模型 | S3 链接 | HuggingFace 链接 |
---|---|---|
全维度 | checkpoint.pt | HF 仓库 |
评估数据集
我们发布了包含 4 个美学标注分数维度的评估数据集。以下展示了如何将每个标注映射到实际音频文件的示例:
{
"data_path": "/your_path/LibriTTS/train-clean-100/1363/139304/1363_139304_000011_000000.wav",
"Production_Quality": [8.0, 8.0, 8.0, 8.0, 8.0, 9.0, 8.0, 5.0, 8.0, 8.0],
"Production_Complexity": [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0],
"Content_Enjoyment": [8.0, 6.0, 8.0, 5.0, 8.0, 8.0, 8.0, 6.0, 8.0, 6.0],
"Content_Usefulness": [8.0, 6.0, 8.0, 7.0, 8.0, 9.0, 8.0, 6.0, 10.0, 7.0]
}
- 从
data_path
识别数据集名称。在示例中,为 LibriTTS。 - 将
/your_path/
替换为你下载的 LibriTTS 目录。 - 每个维度包含 10 个由 10 个不同人工标注者标注的分数。
数据集名称 | URL |
---|---|
LibriTTS | https://openslr.org/60/ |
cv-corpus-13.0-2023-03-09 | https://commonvoice.mozilla.org/en/datasets |
EARS | https://sp-uhh.github.io/ears_dataset/ |
MUSDB18 | https://sigsep.github.io/datasets/musdb.html |
musiccaps | https://www.kaggle.com/datasets/googleai/musiccaps |
(audioset) unbalanced_train_segments | https://research.google.com/audioset/dataset/index.html |
PAM | https://zenodo.org/records/10737388 |
💻 使用示例
基础用法
通过命令行界面(CLI)进行预测
- 创建一个
jsonl
文件,格式如下:
{"path":"/path/to/a.wav"}
{"path":"/path/to/b.flac"}
...
{"path":"/path/to/z.wav"}
或者,如果你只想从特定时间戳预测美学分数:
{"path":"/path/to/a.wav", "start_time":0, "end_time": 5}
{"path":"/path/to/b.flac", "start_time":3, "end_time": 10}
并将其保存为 input.jsonl
。
- 运行以下命令:
audio-aes input.jsonl --batch-size 100 > output.jsonl
如果你尚未下载检查点,脚本将尝试自动下载。否则,你可以通过 --ckpt /path/to/checkpoint.pt
提供路径。
如果你使用 SLURM,运行以下命令:
audio-aes input.jsonl --batch-size 100 --remote --array 5 --job-dir $HOME/slurm_logs/ --chunk 1000 > output.jsonl
请根据你的节点使用 --slurm-gpu, --slurm-cpu
调整 CPU 和 GPU 设置。
- 输出文件将包含与
input.jsonl
相同数量的行。每行包含 4 个预测维度的 JSON 格式字典。更多信息请查看以下表格:
维度名称 | 全称 |
---|---|
CE | 内容愉悦度(Content Enjoyment) |
CU | 内容有用性(Content Usefulness) |
PC | 制作复杂度(Production Complexity) |
PQ | 制作质量(Production Quality) |
输出行示例:
{"CE": 5.146, "CU": 5.779, "PC": 2.148, "PQ": 7.220}
- (可选)如果你只想提取一个维度(例如 CE),可以使用
jq
工具对输出文件进行后处理:jq '.CE' output.jsonl > output-aes_ce.txt
从 Python 脚本或解释器进行预测
从文件路径进行推理
from audiobox_aesthetics.infer import initialize_predictor
predictor = initialize_predictor()
predictor.forward([{"path":"/path/to/a.wav"}, {"path":"/path/to/b.flac"}])
从 torch 张量进行推理
import torchaudio
from audiobox_aesthetics.infer import initialize_predictor
predictor = initialize_predictor()
wav, sr = torchaudio.load("/path/to/a.wav")
predictor.forward([{"path":wav, "sample_rate": sr}])
📄 许可证
audiobox-aesthetics
项目的大部分内容遵循 CC-BY 4.0 许可证,如 LICENSE
文件所示。然而,项目的部分内容遵循单独的许可证条款:https://github.com/microsoft/unilm 遵循 MIT 许可证。
📚 引用
如果你发现此仓库有用,请引用以下 BibTeX 条目:
@article{tjandra2025aes,
title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
year={2025},
url={https://arxiv.org/abs/2502.05139}
}
🙏 致谢
部分模型代码借鉴自 https://github.com/microsoft/unilm/tree/master/wavlm。
Mms Lid 126
基于Facebook大规模多语言语音项目微调的语言识别模型,支持126种语言的音频分类
音频分类
Transformers 支持多种语言

M
facebook
2.1M
26
Wav2vec2 Base Finetuned Speech Commands V0.02
Apache-2.0
该模型是基于facebook/wav2vec2-base在speech_commands数据集上微调的语音命令识别模型,准确率达97.59%。
音频分类
Transformers

W
0xb1
1.2M
0
Whisper Medium Fleurs Lang Id
Apache-2.0
基于OpenAI Whisper-medium微调的语音语种识别模型,在FLEURS数据集上达到88.05%准确率
音频分类
Transformers

W
sanchit-gandhi
590.30k
14
Wav2vec2 Large Robust 12 Ft Emotion Msp Dim
该模型通过对Wav2Vec2-Large-Robust进行微调训练,用于语音情感识别,输出唤醒度、支配度和效价三个维度的预测值。
音频分类
Transformers 英语

W
audeering
394.51k
109
Lang Id Voxlingua107 Ecapa
Apache-2.0
基于SpeechBrain框架和ECAPA-TDNN架构的语音语言识别模型,支持107种语言的识别和语音嵌入向量提取。
音频分类
PyTorch 支持多种语言
L
speechbrain
330.01k
112
Ast Finetuned Audioset 10 10 0.4593
Bsd-3-clause
音频频谱图变换器(AST)是基于AudioSet微调的模型,将音频转换为频谱图后应用视觉变换器进行音频分类。
音频分类
Transformers

A
MIT
308.88k
311
Whisper Small Ft Common Language Id
Apache-2.0
基于openai/whisper-small微调的通用语言识别模型,在评估集上准确率达88.6%
音频分类
Transformers

W
sanchit-gandhi
256.20k
2
Emotion Recognition Wav2vec2 IEMOCAP
Apache-2.0
使用微调的wav2vec2模型进行语音情感识别,在IEMOCAP数据集上训练
音频分类
PyTorch 英语
E
speechbrain
237.65k
131
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
基于AudioSet数据集微调的音频频谱图变换器,将音频转换为频谱图后使用视觉变换器架构处理,在音频分类任务中表现优异。
音频分类
Transformers

A
MIT
194.20k
5
Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech
Apache-2.0
基于Librispeech-clean-100数据集微调的性别识别模型,在测试集上F1分数达0.9993
音频分类
Transformers

W
alefiury
182.33k
42
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98