🚀 感知語言模型(PLM)
感知語言模型(PLM)是一款先進的、完全開放且可復現的多模態大語言模型(MLLM),旨在為圖像和視頻理解的透明研究提供支持。它能夠助力研究人員深入探索圖像和視頻領域,推動相關技術的發展。
🚀 快速開始
感知語言模型(PLM)由一個小尺度(參數少於 80 億)的視覺編碼器和大語言模型解碼器組成。研究團隊首先分析了現有數據的標準訓練流程,未使用任何專有模型蒸餾技術。通過研究大規模合成數據並建立關鍵縮放定律,確定了限制視頻理解性能的數據缺口,特別是在時空推理和細粒度理解任務方面。為填補這些缺口,團隊創建了 280 萬個高質量人工標註數據,這一規模比現有最大的視頻數據集大了近一個數量級。
你可以在 perception_models 代碼庫 中找到訓練和評估代碼,更多詳細信息可在 GitHub 倉庫中查看。
✨ 主要特性
- 先進架構:採用小尺度視覺編碼器與大語言模型解碼器結合的架構,為圖像和視頻理解研究提供了新的思路。
- 數據驅動:通過分析現有數據和創建大規模高質量人工標註數據,有效填補數據缺口,提升模型性能。
- 開放可復現:完全開放且可復現,方便研究人員進行透明研究,推動領域發展。
📚 詳細文檔
模型詳情
感知語言模型(PLM)在論文 "PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding" 中被提出。
資源與文檔
PLM 圖像基準測試結果
模型 |
DocVQA |
ChartQA |
TextVQA |
InfoQA |
AI2D |
OCRBench |
COCO |
Nocap |
Flickr |
MMMU |
VQAv2 |
OKVQA |
VizWiz |
MME |
SEED |
BLINK |
CVBench |
RealWorldQA |
VSR |
POPE |
PLM1B |
90.7 |
78.6 |
82.1 |
63.0 |
84.9 |
807 |
138.6 |
124.2 |
100.5 |
34.8 |
81.7 |
61.0 |
59.7 |
1603 |
76.3 |
46.8 |
73.8 |
67.1 |
68.8 |
88.4 |
PLM3B |
93.8 |
84.3 |
84.3 |
74.6 |
90.9 |
830 |
144.9 |
126.5 |
98.0 |
41.2 |
84.3 |
66.8 |
64.0 |
1879 |
78.5 |
55.4 |
81.4 |
72.4 |
80.4 |
88.7 |
PLM8B |
94.6 |
85.5 |
86.5 |
80.9 |
92.7 |
870 |
146.7 |
129.9 |
105.6 |
46.1 |
85.6 |
69.6 |
67.0 |
1989 |
79.3 |
56.0 |
81.3 |
75.0 |
82.8 |
89.9 |
PLM 視頻基準測試結果
模型 |
VATEX |
DREAM 1K |
How2QA |
MVBench |
NExTQA |
PerceptionTest (test) |
STAR |
TVQA |
VideoMME |
TVBench |
ActivityNetQA |
EgoSchema (test) |
TemporalBench |
TOMATO |
MotionBench (dev) |
TempCompass (MCQ) |
CGBench (clue) |
Charades STA |
VideoHallucer |
Halluc. EventHallusion |
PLM1B |
92.5 |
34.3 |
86.4 |
70.1 |
80.3 |
72.7 |
83.7 |
50.3 |
49.2 |
50.4 |
62.5 |
60.4 |
18.2 |
25.5 |
52.2 |
64.6 |
43.6 |
55.2 |
49.2 |
79.5 |
PLM3B |
96.1 |
37.4 |
89.4 |
74.7 |
83.4 |
79.3 |
84.8 |
55.3 |
54.9 |
58.9 |
66.2 |
66.9 |
23.4 |
30.9 |
60.4 |
69.3 |
47.2 |
57.7 |
55.5 |
76.5 |
PLM8B |
99.7 |
35.9 |
90.7 |
77.1 |
84.1 |
82.7 |
84.9 |
59.3 |
58.3 |
63.5 |
67.3 |
68.8 |
28.3 |
33.2 |
61.4 |
72.7 |
46.4 |
58.6 |
57.7 |
77.3 |
📄 許可證
本模型遵循 FAIR 非商業研究許可證。點擊下方 “我接受” 或使用、分發研究材料的任何部分或元素,即表示您同意受本協議的約束。
許可證詳細信息
- 許可證權利和再分發:授予您非排他性、全球性、不可轉讓且免版稅的有限許可,以使用、複製、分發、拷貝、創建衍生作品並對研究材料進行修改。但不得將研究材料用於商業用途,再分發需遵循本協議條款。
- 用戶支持:Meta 不提供研究材料的支持服務,使用由您自行決定。
- 免責聲明:研究材料按 “原樣” 提供,Meta 不承擔任何形式的保證責任。
- 責任限制:Meta 及其關聯公司不對因本協議引起的任何損失或損害承擔責任。
- 知識產權:您對自己創建的衍生作品和修改擁有所有權,但如果對 Meta 提起侵權訴訟,本協議授予您的許可證將終止。
- 期限和終止:協議自您接受或訪問研究材料時生效,直至按協議條款終止。若您違反協議,Meta 可終止協議。
- 適用法律和管轄權:本協議受加利福尼亞州法律管轄,相關爭議由加利福尼亞州法院專屬管轄。
- 修改和修訂:Meta 可隨時修改協議,您繼續使用研究材料即表示同意修改。
可接受使用政策
您同意不將研究材料用於以下禁止用途:
- 違法或侵犯他人權利:包括從事、促進、鼓勵非法活動或內容,如暴力、恐怖主義、兒童剝削等。
- 危害人身安全:從事、促進、協助可能導致人員死亡或身體傷害的活動,如軍事、武器開發等。
- 欺騙或誤導他人:生成、推廣欺詐或虛假信息,包括虛假評論等。
- 未適當披露風險:未向最終用戶適當披露研究材料的已知危險。
如發現違反本政策的情況,請通過 此鏈接 提交報告。
📖 引用
如果您覺得我們的代碼對您的研究有幫助,請考慮引用以下論文:
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}