模型概述
模型特點
模型能力
使用案例
🚀 感知語言模型(PLM)
感知語言模型(PLM)是一款先進的、完全開放且可復現的多模態大語言模型(MLLM),專為圖像和視頻理解的透明研究而設計。它能助力研究者更深入地開展相關領域的研究,推動圖像和視頻理解技術的發展。
🚀 快速開始
感知語言模型(PLM)在圖像和視頻理解研究領域具有重要地位。它由一個小尺度(參數少於 80 億)的視覺編碼器和大語言模型(LLM)解碼器組成。研究團隊首先對現有數據的標準訓練流程進行分析,未採用任何專有模型蒸餾技術。通過研究大規模合成數據並建立關鍵縮放定律,識別出限制視頻理解性能的數據缺口,特別是在時空推理和細粒度理解任務方面。為填補這些缺口,團隊創建了 280 萬個高質量人工標註數據,這一數據量比現有最大的視頻數據集大了近一個數量級。
訓練和評估代碼可在 perception_models 代碼庫 中獲取,更多詳細信息可在 GitHub 倉庫中查看。
✨ 主要特性
模型概述
PLM 由小尺度視覺編碼器和 LLM 解碼器構成,通過對標準訓練流程的分析和大規模合成數據的研究,識別數據缺口並創建大量高質量人工標註數據,以提升視頻理解性能。
研究成果
相關研究成果發表在論文 "PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding" 中,技術報告可查看 [📃 Tech Report] ,GitHub 倉庫為 [📂 Github] 。
資源文檔
資源 | 描述 | 文檔 |
---|---|---|
評估 | 使用 lmms-eval 對 PLM 進行評估 | docs/evaluation.md |
訓練 / 微調 | PLM 的訓練和微調說明 | docs/training.md |
PLM-VideoBench 評估 | 使用 lmms-eval 在 PLM-VideoBench 上進行評估 | docs/plm_videobench.md |
端到端微調示例 | 放射學圖像的端到端微調示例 | docs/finetune_example.md |
生成響應 | 使用訓練好的模型通過 generate.py 生成響應 |
generate.py |
圖像基準測試結果
模型 | DocVQA | ChartQA | TextVQA | InfoQA | AI2D | OCRBench | COCO | Nocap | Flickr | MMMU | VQAv2 | OKVQA | VizWiz | MME | SEED | BLINK | CVBench | RealWorldQA | VSR | POPE |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 90.7 | 78.6 | 82.1 | 63.0 | 84.9 | 807 | 138.6 | 124.2 | 100.5 | 34.8 | 81.7 | 61.0 | 59.7 | 1603 | 76.3 | 46.8 | 73.8 | 67.1 | 68.8 | 88.4 |
PLM3B | 93.8 | 84.3 | 84.3 | 74.6 | 90.9 | 830 | 144.9 | 126.5 | 98.0 | 41.2 | 84.3 | 66.8 | 64.0 | 1879 | 78.5 | 55.4 | 81.4 | 72.4 | 80.4 | 88.7 |
PLM8B | 94.6 | 85.5 | 86.5 | 80.9 | 92.7 | 870 | 146.7 | 129.9 | 105.6 | 46.1 | 85.6 | 69.6 | 67.0 | 1989 | 79.3 | 56.0 | 81.3 | 75.0 | 82.8 | 89.9 |
視頻基準測試結果
模型 | VATEX | DREAM 1K | How2QA | MVBench | NExTQA | PerceptionTest (test) | STAR | TVQA | VideoMME | TVBench | ActivityNetQA | EgoSchema (test) | TemporalBench | TOMATO | MotionBench (dev) | TempCompass (MCQ) | CGBench (clue) | Charades STA | VideoHallucer | Halluc. EventHallusion |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 92.5 | 34.3 | 86.4 | 70.1 | 80.3 | 72.7 | 83.7 | 50.3 | 49.2 | 50.4 | 62.5 | 60.4 | 18.2 | 25.5 | 52.2 | 64.6 | 43.6 | 55.2 | 49.2 | 79.5 |
PLM3B | 96.1 | 37.4 | 89.4 | 74.7 | 83.4 | 79.3 | 84.8 | 55.3 | 54.9 | 58.9 | 66.2 | 66.9 | 23.4 | 30.9 | 60.4 | 69.3 | 47.2 | 57.7 | 55.5 | 76.5 |
PLM8B | 99.7 | 35.9 | 90.7 | 77.1 | 84.1 | 82.7 | 84.9 | 59.3 | 58.3 | 63.5 | 67.3 | 68.8 | 28.3 | 33.2 | 61.4 | 72.7 | 46.4 | 58.6 | 57.7 | 77.3 |
📄 許可證
FAIR 非商業研究許可證
定義
- “可接受使用政策” 指適用於研究材料的 FAIR 可接受使用政策,該政策已納入本協議。
- “協議” 指本協議中規定的研究材料的使用、複製、分發和修改的條款和條件。
- “文檔” 指 Meta 分發的研究材料所附帶的規格說明、手冊和文檔。
- “被許可方” 或 “您” 指您本人,或您的僱主,或任何其他個人或實體(如果您代表該個人或實體簽訂本協議),且該個人或實體達到適用法律、規則或法規要求的提供法律同意的年齡,並具有在您代表其簽訂本協議時約束您的僱主或該其他個人或實體的法律權力。
- “Meta” 或 “我們” 指 Meta Platforms Ireland Limited(如果您位於歐洲經濟區(EEA)或瑞士,或者如果您是一個實體,您的主要營業地位於 EEA 或瑞士)和 Meta Platforms, Inc.(如果您位於 EEA 或瑞士以外)。
- “非商業研究用途” 指與研究、開發、教育、處理或分析相關的非商業研究用例,且在每種情況下,主要目的不是為您或他人帶來商業利益或金錢補償。
- “研究材料” 指文檔以及模型、軟件和算法的統稱,包括機器學習模型代碼、訓練好的模型權重、推理啟用代碼、訓練啟用代碼、微調啟用代碼、演示材料以及 Meta 根據本協議分發並提供的上述其他元素。
許可權利和再分發
- 權利授予:您被授予在研究材料中體現的 Meta 知識產權或 Meta 擁有的其他權利下的非排他性、全球性、不可轉讓且免版稅的有限許可,以使用、複製、分發、拷貝、創作衍生作品並對研究材料進行修改。
- 再分發和使用
- 您不得將研究材料或研究材料的任何輸出或結果用於任何商業用途,或用於非商業研究用途以外的任何用途。
- 研究材料及其任何衍生作品的分發須遵守本協議的條款。如果您將研究材料或其任何衍生作品分發給第三方,您只能根據本協議的條款進行分發,並向該第三方提供本協議的副本。
- 如果您提交使用研究材料進行的研究結果以供發表,您必須在出版物中承認使用了研究材料。
- 您對研究材料的使用必須遵守適用的法律和法規(包括貿易管制法律),並遵守 FAIR 可接受使用政策,該政策通過引用納入本協議。
用戶支持
您對研究材料的非商業研究使用由您自行決定;Meta 不處理任何與該使用相關的信息,也不提供任何服務。Meta 沒有義務為研究材料提供任何支持服務。提供的任何支持均 “按現狀”、“帶有所有缺陷” 提供,且不提供任何形式的保證。
免責聲明
除非適用法律要求,研究材料及其任何輸出和結果均 “按現狀” 提供,不提供任何形式的保證,Meta 明確否認所有明示和暗示的保證,包括但不限於所有權、不侵權、適銷性或特定用途適用性的保證。您獨自負責確定使用或再分發研究材料的適當性,並承擔與您使用研究材料及其任何輸出和結果相關的任何風險。
責任限制
無論在何種責任理論下,包括合同、侵權、疏忽、產品責任或其他情況,Meta 或其關聯公司均不對因本協議引起的任何利潤損失或任何直接或間接、特殊、後果性、偶然、懲戒性或懲罰性損害承擔責任,即使 Meta 或其關聯公司已被告知此類損害的可能性。
知識產權
- 除 Meta 對研究材料及其由 Meta 或代表 Meta 製作的衍生作品的所有權外,就您製作的研究材料的任何衍生作品和修改而言,在您和 Meta 之間,您是且將是此類衍生作品和修改的所有者。
- 如果您對 Meta 或任何實體提起訴訟或其他法律程序(包括在訴訟中的交叉索賠或反訴),聲稱研究材料、輸出或結果或上述任何部分構成侵犯您擁有或可許可的知識產權或其他權利,則本協議授予您的任何許可將自提起此類訴訟或索賠之日起終止。您將賠償並使 Meta 免受因您使用或分發研究材料而引起的或與之相關的任何第三方索賠。
期限和終止
本協議的期限將自您接受本協議或訪問研究材料之日起開始,並將持續有效,直至根據本協議的條款和條件終止。如果您違反本協議的任何條款或條件,Meta 可終止本協議。本協議終止後,您應刪除並停止使用研究材料。第 5、6 和 9 條在本協議終止後仍然有效。
適用法律和管轄權
本協議將受加利福尼亞州法律管轄並依其解釋,不考慮法律選擇原則,且《聯合國國際貨物銷售合同公約》不適用於本協議。加利福尼亞州的法院對因本協議引起的任何爭議具有專屬管轄權。
修改和修訂
Meta 可不時通過在 [https://huggingface.co/facebook/Perception-LM-8B/blob/main/LICENSE] 上發佈修訂版本來修改本協議。前提是這些修訂在精神上與本協議的當前版本相似,但在細節上可能有所不同,以解決新的問題或擔憂。所有此類更改將立即生效。您在本協議任何修改後繼續使用研究材料即表示您同意此類修改。除非本協議另有規定,否則對本協議任何條款的修改或補充除非以書面形式並由您和 Meta 的授權代表簽署,否則不具有約束力。
FAIR 可接受使用政策
Meta 的基礎人工智能研究(FAIR)團隊旨在通過開放研究推進人工智能的前沿技術,以造福所有人,進一步理解新的和現有的研究領域。作為這一使命的一部分,Meta 提供某些研究材料供非商業研究使用,並致力於促進此類研究材料的安全和負責任使用。
禁止使用情況
- 違法或侵犯他人權利:您同意不使用或允許他人使用研究材料來從事、促進、生成、促成、鼓勵、策劃、煽動或進一步推動非法或違法活動或內容,包括暴力或恐怖主義、對兒童的剝削或傷害、人口販運、性暴力、向未成年人非法分發信息或材料、性引誘以及任何其他犯罪活動。同時,不得從事、促進、煽動或便利對個人或群體的騷擾、虐待、威脅或欺凌,不得從事、促進、煽動或便利在就業、就業福利、信貸、住房、其他經濟福利或其他基本商品和服務提供方面的歧視或其他非法或有害行為。
- 未經授權的專業實踐:不得從事未經授權或無執照的任何專業實踐,包括但不限於金融、法律、醫療/健康或相關專業實踐。
- 收集敏感信息:不得在未獲得適用法律要求的權利和同意的情況下,收集、處理、披露、生成或推斷個人的健康、人口統計或其他敏感個人或私人信息。
- 侵犯第三方權利:不得從事或便利任何侵犯、盜用或以其他方式侵犯任何第三方權利的行為,包括使用 FAIR 研究材料的任何技術的輸出或結果。
- 創建惡意代碼:不得創建、生成或便利創建惡意代碼、惡意軟件、計算機病毒,或做任何可能禁用、使網站或計算機系統負擔過重、干擾或損害其正常工作、完整性、操作或外觀的事情。
- 從事危險活動:不得從事、促進、煽動、便利或協助策劃或開展對個人生命或身體造成傷害風險的活動,包括使用與軍事、戰爭、核工業或應用、間諜活動、受美國國務院維護的國際武器貿易條例(ITAR)管制的材料或活動、槍支和非法武器(包括武器開發)、非法藥物和受管制/受控物質、關鍵基礎設施運營、運輸技術或重型機械、自我傷害或傷害他人(包括自殺、自殘和飲食失調)以及任何旨在煽動或促進暴力、虐待或對個人造成身體傷害的內容相關的研究製品。
- 欺騙或誤導他人:不得故意欺騙或誤導他人,包括使用與生成、促進或進一步推動欺詐或虛假信息的創建或推廣、生成、促進或進一步推動誹謗性內容、生成、促進或進一步分發垃圾郵件、未經同意、授權或合法權利冒充他人、聲稱 FAIR 研究材料的輸出或使用 FAIR 研究材料的技術的輸出是人類生成的、生成或便利虛假的在線互動(包括虛假評論和其他虛假在線互動方式)相關的 FAIR 研究材料。
- 未適當披露危險:不得未能向最終用戶適當披露您的研究材料的任何已知危險。
違規報告
如果發現違反本政策的情況或可能導致違反本政策的其他問題,請通過 [https://docs.google.com/forms/d/e/1FAIpQLSeb11cryAopJ7LNrC4nxEUXrHY26hfkXQMf_uH-oFgA3WlYZQ/viewform] 提交報告。
📚 詳細文檔
模型訪問說明
在訪問模型時,請務必提供您的完整法定姓名、出生日期和包含所有公司標識符的完整組織名稱,避免使用縮寫和特殊字符。未能遵循這些說明可能會導致您無法訪問此模型和 Hugging Face 上的其他模型。提交表單後,您將無法編輯該表單,因此請確保所有信息準確無誤。
數據收集說明
您提供的信息將根據 Meta 隱私政策 進行收集、存儲、處理和共享。
📖 引用
如果您發現我們的代碼對您的研究有用,請考慮引用以下文獻:
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}



