Audiobox Aesthetics
統一的語音、音樂和聲音自動質量評估模型
下載量 56.27k
發布時間 : 2/13/2025
模型概述
該模型提供對語音、音樂和聲音內容的自動質量評估,包含四個評估軸:內容享受度、內容有用性、製作複雜度和製作質量。
模型特點
多維度評估
提供四個獨立的評估軸,全面覆蓋音頻內容的不同質量維度
廣泛適用性
支持語音、音樂和一般聲音內容的評估
高效預測
支持批量處理,可高效評估大量音頻文件
模型能力
音頻質量評估
語音內容評分
音樂內容評分
聲音內容評分
批量處理音頻
使用案例
內容審核
音頻內容質量篩選
自動篩選高質量語音內容
提高內容平臺整體質量
音樂製作
音樂作品評估
評估音樂作品的製作質量和聽眾享受度
輔助音樂製作決策
🚀 音頻美學評估模型(audiobox-aesthetics)
本模型能夠對語音、音樂和聲音進行統一的自動質量評估,為音頻質量分析提供了高效且準確的解決方案,在音頻處理領域具有重要價值。
🚀 快速開始
此模型已通過 PytorchModelHubMixin 集成推送到模型中心:
- 代碼:https://github.com/facebookresearch/audiobox-aesthetics
- 論文:https://huggingface.co/papers/2502.05139
✨ 主要特性
- 實現了對語音、音樂和聲音的統一自動質量評估。
- 提供了預訓練模型,方便快速使用。
- 支持通過命令行界面(CLI)和 Python 腳本進行預測。
📦 安裝指南
通過 pip 安裝
pip install audiobox_aesthetics
從源代碼直接安裝
本倉庫需要 Python 3.9 和 Pytorch 2.2 或更高版本。安裝時,你可以克隆此倉庫並運行以下命令:
pip install -e .
📚 詳細文檔
預訓練模型
模型 | S3 鏈接 | HuggingFace 鏈接 |
---|---|---|
全維度 | checkpoint.pt | HF 倉庫 |
評估數據集
我們發佈了包含 4 個美學標註分數維度的評估數據集。以下展示瞭如何將每個標註映射到實際音頻文件的示例:
{
"data_path": "/your_path/LibriTTS/train-clean-100/1363/139304/1363_139304_000011_000000.wav",
"Production_Quality": [8.0, 8.0, 8.0, 8.0, 8.0, 9.0, 8.0, 5.0, 8.0, 8.0],
"Production_Complexity": [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0],
"Content_Enjoyment": [8.0, 6.0, 8.0, 5.0, 8.0, 8.0, 8.0, 6.0, 8.0, 6.0],
"Content_Usefulness": [8.0, 6.0, 8.0, 7.0, 8.0, 9.0, 8.0, 6.0, 10.0, 7.0]
}
- 從
data_path
識別數據集名稱。在示例中,為 LibriTTS。 - 將
/your_path/
替換為你下載的 LibriTTS 目錄。 - 每個維度包含 10 個由 10 個不同人工標註者標註的分數。
數據集名稱 | URL |
---|---|
LibriTTS | https://openslr.org/60/ |
cv-corpus-13.0-2023-03-09 | https://commonvoice.mozilla.org/en/datasets |
EARS | https://sp-uhh.github.io/ears_dataset/ |
MUSDB18 | https://sigsep.github.io/datasets/musdb.html |
musiccaps | https://www.kaggle.com/datasets/googleai/musiccaps |
(audioset) unbalanced_train_segments | https://research.google.com/audioset/dataset/index.html |
PAM | https://zenodo.org/records/10737388 |
💻 使用示例
基礎用法
通過命令行界面(CLI)進行預測
- 創建一個
jsonl
文件,格式如下:
{"path":"/path/to/a.wav"}
{"path":"/path/to/b.flac"}
...
{"path":"/path/to/z.wav"}
或者,如果你只想從特定時間戳預測美學分數:
{"path":"/path/to/a.wav", "start_time":0, "end_time": 5}
{"path":"/path/to/b.flac", "start_time":3, "end_time": 10}
並將其保存為 input.jsonl
。
- 運行以下命令:
audio-aes input.jsonl --batch-size 100 > output.jsonl
如果你尚未下載檢查點,腳本將嘗試自動下載。否則,你可以通過 --ckpt /path/to/checkpoint.pt
提供路徑。
如果你使用 SLURM,運行以下命令:
audio-aes input.jsonl --batch-size 100 --remote --array 5 --job-dir $HOME/slurm_logs/ --chunk 1000 > output.jsonl
請根據你的節點使用 --slurm-gpu, --slurm-cpu
調整 CPU 和 GPU 設置。
- 輸出文件將包含與
input.jsonl
相同數量的行。每行包含 4 個預測維度的 JSON 格式字典。更多信息請查看以下表格:
維度名稱 | 全稱 |
---|---|
CE | 內容愉悅度(Content Enjoyment) |
CU | 內容有用性(Content Usefulness) |
PC | 製作複雜度(Production Complexity) |
PQ | 製作質量(Production Quality) |
輸出行示例:
{"CE": 5.146, "CU": 5.779, "PC": 2.148, "PQ": 7.220}
- (可選)如果你只想提取一個維度(例如 CE),可以使用
jq
工具對輸出文件進行後處理:jq '.CE' output.jsonl > output-aes_ce.txt
從 Python 腳本或解釋器進行預測
從文件路徑進行推理
from audiobox_aesthetics.infer import initialize_predictor
predictor = initialize_predictor()
predictor.forward([{"path":"/path/to/a.wav"}, {"path":"/path/to/b.flac"}])
從 torch 張量進行推理
import torchaudio
from audiobox_aesthetics.infer import initialize_predictor
predictor = initialize_predictor()
wav, sr = torchaudio.load("/path/to/a.wav")
predictor.forward([{"path":wav, "sample_rate": sr}])
📄 許可證
audiobox-aesthetics
項目的大部分內容遵循 CC-BY 4.0 許可證,如 LICENSE
文件所示。然而,項目的部分內容遵循單獨的許可證條款:https://github.com/microsoft/unilm 遵循 MIT 許可證。
📚 引用
如果你發現此倉庫有用,請引用以下 BibTeX 條目:
@article{tjandra2025aes,
title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
year={2025},
url={https://arxiv.org/abs/2502.05139}
}
🙏 致謝
部分模型代碼借鑑自 https://github.com/microsoft/unilm/tree/master/wavlm。
Mms Lid 126
基於Facebook大規模多語言語音項目微調的語言識別模型,支持126種語言的音頻分類
音頻分類
Transformers 支持多種語言

M
facebook
2.1M
26
Wav2vec2 Base Finetuned Speech Commands V0.02
Apache-2.0
該模型是基於facebook/wav2vec2-base在speech_commands數據集上微調的語音命令識別模型,準確率達97.59%。
音頻分類
Transformers

W
0xb1
1.2M
0
Whisper Medium Fleurs Lang Id
Apache-2.0
基於OpenAI Whisper-medium微調的語音語種識別模型,在FLEURS數據集上達到88.05%準確率
音頻分類
Transformers

W
sanchit-gandhi
590.30k
14
Wav2vec2 Large Robust 12 Ft Emotion Msp Dim
該模型通過對Wav2Vec2-Large-Robust進行微調訓練,用於語音情感識別,輸出喚醒度、支配度和效價三個維度的預測值。
音頻分類
Transformers 英語

W
audeering
394.51k
109
Lang Id Voxlingua107 Ecapa
Apache-2.0
基於SpeechBrain框架和ECAPA-TDNN架構的語音語言識別模型,支持107種語言的識別和語音嵌入向量提取。
音頻分類
PyTorch 支持多種語言
L
speechbrain
330.01k
112
Ast Finetuned Audioset 10 10 0.4593
Bsd-3-clause
音頻頻譜圖變換器(AST)是基於AudioSet微調的模型,將音頻轉換為頻譜圖後應用視覺變換器進行音頻分類。
音頻分類
Transformers

A
MIT
308.88k
311
Whisper Small Ft Common Language Id
Apache-2.0
基於openai/whisper-small微調的通用語言識別模型,在評估集上準確率達88.6%
音頻分類
Transformers

W
sanchit-gandhi
256.20k
2
Emotion Recognition Wav2vec2 IEMOCAP
Apache-2.0
使用微調的wav2vec2模型進行語音情感識別,在IEMOCAP數據集上訓練
音頻分類
PyTorch 英語
E
speechbrain
237.65k
131
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
基於AudioSet數據集微調的音頻頻譜圖變換器,將音頻轉換為頻譜圖後使用視覺變換器架構處理,在音頻分類任務中表現優異。
音頻分類
Transformers

A
MIT
194.20k
5
Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech
Apache-2.0
基於Librispeech-clean-100數據集微調的性別識別模型,在測試集上F1分數達0.9993
音頻分類
Transformers

W
alefiury
182.33k
42
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98