模型概述
模型特點
模型能力
使用案例
🚀 感知語言模型(PLM)
感知語言模型(PLM)是一款先進的、完全開放且可復現的多模態大語言模型(MLLM),旨在推動圖像和視頻理解領域的透明化研究。它為相關研究提供了強大的工具,有助於深入探索圖像和視頻中的信息。
🚀 快速開始
感知語言模型(PLM)由一個小尺度(參數少於80億)的視覺編碼器和一個大語言模型(LLM)解碼器組成。研究團隊首先對使用現有數據的標準訓練流程進行分析,不涉及任何專有模型的蒸餾操作。接著,研究團隊對大規模合成數據展開研究,確立關鍵的縮放定律,以找出限制視頻理解性能的關鍵數據缺口,特別是在時空推理和細粒度理解任務方面。為填補這些缺口,團隊創建了280萬個高質量的人工標註數據,這一數據量比現有的最大視頻數據集大了近一個數量級。
研究團隊在 perception_models代碼庫 中提供了訓練和評估代碼。你可以在GitHub倉庫中找到更多詳細信息。
✨ 主要特性
- 先進架構:採用視覺編碼器與小尺度LLM解碼器結合的架構,為圖像和視頻理解提供強大支持。
- 數據驅動:通過分析標準訓練流程和大規模合成數據,找出數據缺口並創建大量高質量人工標註數據,提升模型性能。
- 開放可復現:完全開放且可復現,便於研究人員進行透明化研究。
📚 詳細文檔
模型資源文檔
資源 | 描述 | 文檔鏈接 |
---|---|---|
評估 | 使用lmms - eval對PLM進行評估 | docs/evaluation.md |
訓練/微調 | PLM的訓練和微調說明 | docs/training.md |
PLM - VideoBench評估 | 使用lmms - eval在PLM - VideoBench上進行評估 | docs/plm_videobench.md |
端到端微調示例 | 放射學圖像的端到端微調示例 | docs/finetune_example.md |
生成響應 | 使用訓練好的模型通過generate.py 生成響應 |
generate.py |
PLM圖像基準測試結果
模型 | DocVQA | ChartQA | TextVQA | InfoQA | AI2D | OCRBench | COCO | Nocap | Flickr | MMMU | VQAv2 | OKVQA | VizWiz | MME | SEED | BLINK | CVBench | RealWorldQA | VSR | POPE |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 90.7 | 78.6 | 82.1 | 63.0 | 84.9 | 807 | 138.6 | 124.2 | 100.5 | 34.8 | 81.7 | 61.0 | 59.7 | 1603 | 76.3 | 46.8 | 73.8 | 67.1 | 68.8 | 88.4 |
PLM3B | 93.8 | 84.3 | 84.3 | 74.6 | 90.9 | 830 | 144.9 | 126.5 | 98.0 | 41.2 | 84.3 | 66.8 | 64.0 | 1879 | 78.5 | 55.4 | 81.4 | 72.4 | 80.4 | 88.7 |
PLM8B | 94.6 | 85.5 | 86.5 | 80.9 | 92.7 | 870 | 146.7 | 129.9 | 105.6 | 46.1 | 85.6 | 69.6 | 67.0 | 1989 | 79.3 | 56.0 | 81.3 | 75.0 | 82.8 | 89.9 |
PLM視頻基準測試結果
模型 | VATEX | DREAM 1K | How2QA | MVBench | NExTQA | PerceptionTest (test) | STAR | TVQA | VideoMME | TVBench | ActivityNetQA | EgoSchema (test) | TemporalBench | TOMATO | MotionBench (dev) | TempCompass (MCQ) | CGBench (clue) | Charades STA | VideoHallucer | Halluc. EventHallusion |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 92.5 | 34.3 | 86.4 | 70.1 | 80.3 | 72.7 | 83.7 | 50.3 | 49.2 | 50.4 | 62.5 | 60.4 | 18.2 | 25.5 | 52.2 | 64.6 | 43.6 | 55.2 | 49.2 | 79.5 |
PLM3B | 96.1 | 37.4 | 89.4 | 74.7 | 83.4 | 79.3 | 84.8 | 55.3 | 54.9 | 58.9 | 66.2 | 66.9 | 23.4 | 30.9 | 60.4 | 69.3 | 47.2 | 57.7 | 55.5 | 76.5 |
PLM8B | 99.7 | 35.9 | 90.7 | 77.1 | 84.1 | 82.7 | 84.9 | 59.3 | 58.3 | 63.5 | 67.3 | 68.8 | 28.3 | 33.2 | 61.4 | 72.7 | 46.4 | 58.6 | 57.7 | 77.3 |
📄 許可證
FAIR非商業研究許可證
定義
- “可接受使用政策”指適用於研究材料的FAIR可接受使用政策,該政策已納入本協議。
- “協議”指本協議中規定的研究材料的使用、複製、分發和修改的條款和條件。
- “文檔”指Meta分發的研究材料隨附的規格、手冊和文檔。
- “被許可方”或“您”指您本人,或您的僱主,或任何其他個人或實體(如果您代表該個人或實體簽訂本協議),且該個人或實體達到適用法律、規則或法規要求的提供法律同意的年齡,並且如果您代表他們簽訂本協議,具有約束您的僱主或該其他個人或實體的法律權力。
- “Meta”或“我們”指Meta Platforms Ireland Limited(如果您位於歐洲經濟區(EEA)或瑞士,或者如果您是一個實體,您的主要營業地位於EEA或瑞士)和Meta Platforms, Inc.(如果您位於EEA或瑞士以外)。
- “非商業研究用途”指與研究、開發、教育、處理或分析相關的非商業研究用例,並且在每種情況下,主要目的不是為您或他人帶來商業利益或金錢補償。
- “研究材料”指文檔以及模型、軟件和算法的統稱,包括機器學習模型代碼、訓練好的模型權重、推理啟用代碼、訓練啟用代碼、微調啟用代碼、演示材料以及Meta分發並根據本協議提供的上述各項的其他元素。
許可權利和再分發
- 權利授予:您被授予在Meta體現在研究材料中的知識產權或其他權利下的非排他性、全球性、不可轉讓且免版稅的有限許可,以使用、複製、分發、拷貝、創作衍生作品並對研究材料進行修改。
- 再分發和使用:
- 您不得將研究材料或研究材料的任何輸出或結果用於任何商業用途,或用於非商業研究用途以外的任何用途。
- 研究材料及其任何衍生作品的分發須遵守本協議的條款。如果您將研究材料或其任何衍生作品分發給第三方,您只能根據本協議的條款進行分發。您還應向該第三方提供本協議的副本。
- 如果您提交使用研究材料進行的研究結果以供發表,您必須在出版物中承認使用了研究材料。
- 您對研究材料的使用必須遵守適用的法律和法規(包括貿易管制法律),並遵守FAIR可接受使用政策,該政策通過引用納入本協議。
用戶支持
您對研究材料的非商業研究使用由您自行決定;Meta不處理任何信息,也不就此類使用提供任何服務。Meta沒有義務為研究材料提供任何支持服務。提供的任何支持均“按現狀”提供,“帶有所有缺陷”,且不提供任何形式的保證。
保修免責聲明
除非適用法律要求,研究材料及其任何輸出和結果均“按現狀”提供,不提供任何形式的保證,Meta明確排除所有明示和暗示的保證,包括但不限於所有權、不侵權、適銷性或特定用途適用性的任何保證。您獨自負責確定使用或再分發研究材料的適當性,並承擔與您使用研究材料及其任何輸出和結果相關的任何風險。
責任限制
在任何情況下,Meta或其關聯公司均不對因本協議引起的任何利潤損失或任何直接或間接、特殊、後果性、附帶性、懲戒性或懲罰性損害承擔責任,無論責任理論是合同、侵權、疏忽、產品責任還是其他,即使Meta或其關聯公司已被告知可能發生上述任何損害。
知識產權
- 關於您對研究材料所做的任何衍生作品和修改,在您和Meta之間,您是並將是此類衍生作品和修改的所有者,但需遵守Meta對研究材料及其由Meta或代表Meta製作的衍生作品的所有權。
- 如果您對Meta或任何實體提起訴訟或其他法律程序(包括在訴訟中的交叉索賠或反訴),聲稱研究材料、輸出或結果或上述任何內容的任何部分構成侵犯您擁有或可許可的知識產權或其他權利,則本協議授予您的任何許可應自提起此類訴訟或索賠之日起終止。您將賠償並使Meta免受任何第三方因您使用或分發研究材料而產生或與之相關的任何索賠。
期限和終止
本協議的期限將自您接受本協議或訪問研究材料時開始,並將持續完全有效,直至根據本協議的條款和條件終止。如果您違反本協議的任何條款或條件,Meta可終止本協議。本協議終止後,您應刪除並停止使用研究材料。第5、6和9條在本協議終止後仍然有效。
適用法律和管轄權
本協議將受加利福尼亞州法律管轄並依其解釋,不考慮法律選擇原則,並且《聯合國國際貨物銷售合同公約》不適用於本協議。加利福尼亞州的法院對因本協議引起的任何爭議具有專屬管轄權。
修改和修訂
Meta可不時通過在[https://huggingface.co/facebook/Perception-LM-8B/blob/main/LICENSE]發佈修訂版本來修改本協議;前提是這些修改在精神上與本協議的當前版本相似,但在細節上可能有所不同,以解決新的問題或擔憂。所有此類更改將立即生效。在本協議進行任何修改後,您繼續使用研究材料即表示您同意此類修改。除非本協議另有規定,否則對本協議任何條款的修改或補充除非以書面形式並由您和Meta的授權代表簽署,否則不具有約束力。
FAIR可接受使用政策
Meta的基礎人工智能研究(FAIR)團隊旨在通過開放研究推進人工智能的前沿技術,以造福所有人,進一步理解新的和現有的研究領域。作為這一使命的一部分,Meta提供某些研究材料供非商業研究使用。Meta致力於促進此類研究材料的安全和負責任使用。
禁止使用情況
- 違反法律或他人權利:您同意不使用或允許他人使用研究材料來從事、促進、生成、促成、鼓勵、策劃、煽動或進一步推動非法或違法活動或內容,例如暴力或恐怖主義、對兒童的剝削或傷害(包括徵集、創建、獲取或傳播兒童剝削內容或未能報告兒童性虐待材料)、人口販運、剝削和性暴力、向未成年人非法分發信息或材料(包括淫穢材料)或未能對此類信息或材料採用法律要求的年齡限制、性招攬以及任何其他犯罪活動。
- 騷擾和歧視:您不得從事、促進、煽動或便利對個人或群體的騷擾、虐待、威脅或欺凌,不得從事、促進、煽動或便利在就業、就業福利、信貸、住房、其他經濟福利或其他基本商品和服務的提供方面的歧視或其他非法或有害行為。
- 未經授權的專業實踐:您不得從事未經授權或無執照的任何專業實踐,包括但不限於金融、法律、醫療/健康或相關專業實踐。
- 敏感信息處理:您不得在未獲得適用法律要求的權利和同意的情況下,收集、處理、披露、生成或推斷有關個人的健康、人口統計或其他敏感個人或私人信息。
- 侵犯第三方權利:您不得從事或便利任何侵犯、盜用或以其他方式侵犯任何第三方權利的行為,或生成任何侵犯第三方權利的內容,包括使用FAIR研究材料的任何技術的輸出或結果。
- 惡意代碼和系統干擾:您不得創建、生成或便利創建惡意代碼、惡意軟件、計算機病毒,或做任何可能禁用、使負擔過重、干擾或損害網站或計算機系統的正常運行、完整性、操作或外觀的事情。
- 危險活動:您不得從事、促進、煽動、便利或協助策劃或開展對個人造成死亡或身體傷害風險的活動,包括使用與以下方面相關的研究製品:軍事、戰爭、核工業或應用、間諜活動、受美國國務院維護的《國際武器貿易條例》(ITAR)約束的材料或活動、槍支和非法武器(包括武器開發)、非法藥物和受管制/受控物質、關鍵基礎設施的運營、運輸技術或重型機械、自我傷害或對他人的傷害(包括自殺、切割和飲食失調)以及任何旨在煽動或促進暴力、虐待或對個人造成身體傷害的內容。
- 欺騙和誤導:您不得故意欺騙或誤導他人,包括使用與以下方面相關的FAIR研究材料:生成、促進或進一步推動欺詐或創建或促進虛假信息、生成、促進或進一步推動誹謗性內容(包括創建誹謗性聲明、圖像或其他內容)、生成、促進或進一步分發垃圾郵件、未經同意、授權或合法權利冒充他人、聲稱FAIR研究材料的輸出或使用FAIR研究材料的技術的輸出是人類生成的、生成或便利虛假的在線互動(包括虛假評論和其他虛假在線互動方式)。
- 危險披露:您不得未能向最終用戶適當披露研究材料的任何已知危險。
請通過[https://docs.google.com/forms/d/e/1FAIpQLSeb11cryAopJ7LNrC4nxEUXrHY26hfkXQMf_uH-oFgA3WlYZQ/viewform]提交報告,舉報任何違反本政策的行為或可能導致違反本政策的其他問題。
📚 引用
如果您發現我們的代碼對您的研究有用,請考慮引用以下文獻:
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}



