Perception-LM-3B開源預訓練語言模型 - 基於Meta提供用於非商業研究場景

Home

Perception LM 3B

Developed by facebook

Meta提供的基於PyTorch的預訓練語言模型，遵循FAIR非商業研究許可協議

大型語言模型

PyTorch

EnglishOpen Source License:Other #非商業研究授權 #多模態支持 #預訓練權重

Downloads 64

Release Time : 4/10/2025

Model Overview

該模型是Meta發佈的研究用預訓練語言模型，適用於非商業研究用途

Model Features

非商業研究許可

遵循FAIR非商業研究許可協議，允許用於研究、開發和教育目的

PyTorch支持

基於PyTorch框架構建，便於研究人員使用和擴展

完整研究套件

提供訓練模型權重、推理代碼、訓練支持代碼和文檔等完整研究材料

Model Capabilities

文本理解

文本生成

語言建模

Use Cases

學術研究

語言模型研究

用於自然語言處理領域的模型架構和訓練方法研究

教育應用

教學演示

作為機器學習課程的實踐案例

🚀 感知語言模型（PLM）

感知語言模型（PLM）是一款先進的、完全開放且可復現的多模態大語言模型（MLLM），旨在為圖像和視頻理解的透明研究提供支持。它能夠助力研究人員深入探索圖像和視頻領域，推動相關技術的發展。

🚀 快速開始

感知語言模型（PLM）由一個小尺度（參數少於 80 億）的視覺編碼器和大語言模型解碼器組成。研究團隊首先分析了現有數據的標準訓練流程，未使用任何專有模型蒸餾技術。通過研究大規模合成數據並建立關鍵縮放定律，確定了限制視頻理解性能的數據缺口，特別是在時空推理和細粒度理解任務方面。為填補這些缺口，團隊創建了 280 萬個高質量人工標註數據，這一規模比現有最大的視頻數據集大了近一個數量級。

你可以在 perception_models 代碼庫中找到訓練和評估代碼，更多詳細信息可在 GitHub 倉庫中查看。

✨ 主要特性

先進架構：採用小尺度視覺編碼器與大語言模型解碼器結合的架構，為圖像和視頻理解研究提供了新的思路。
數據驅動：通過分析現有數據和創建大規模高質量人工標註數據，有效填補數據缺口，提升模型性能。
開放可復現：完全開放且可復現，方便研究人員進行透明研究，推動領域發展。

📚 詳細文檔

模型詳情

感知語言模型（PLM）在論文 "PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding" 中被提出。

資源與文檔

資源	描述	文檔
評估	使用 lmms-eval 對 PLM 進行評估	docs/evaluation.md
訓練 / 微調	PLM 的訓練和微調說明	docs/training.md
PLM-VideoBench 評估	使用 lmms-eval 在 PLM-VideoBench 上進行評估	docs/plm_videobench.md
端到端微調示例	放射學圖像的端到端微調示例	docs/finetune_example.md
生成響應	使用訓練好的模型通過 `generate.py` 生成響應	generate.py

PLM 圖像基準測試結果

模型	DocVQA	ChartQA	TextVQA	InfoQA	AI2D	OCRBench	COCO	Nocap	Flickr	MMMU	VQAv2	OKVQA	VizWiz	MME	SEED	BLINK	CVBench	RealWorldQA	VSR	POPE
PLM1B	90.7	78.6	82.1	63.0	84.9	807	138.6	124.2	100.5	34.8	81.7	61.0	59.7	1603	76.3	46.8	73.8	67.1	68.8	88.4
PLM3B	93.8	84.3	84.3	74.6	90.9	830	144.9	126.5	98.0	41.2	84.3	66.8	64.0	1879	78.5	55.4	81.4	72.4	80.4	88.7
PLM8B	94.6	85.5	86.5	80.9	92.7	870	146.7	129.9	105.6	46.1	85.6	69.6	67.0	1989	79.3	56.0	81.3	75.0	82.8	89.9

PLM 視頻基準測試結果

模型	VATEX	DREAM 1K	How2QA	MVBench	NExTQA	PerceptionTest (test)	STAR	TVQA	VideoMME	TVBench	ActivityNetQA	EgoSchema (test)	TemporalBench	TOMATO	MotionBench (dev)	TempCompass (MCQ)	CGBench (clue)	Charades STA	VideoHallucer	Halluc. EventHallusion
PLM1B	92.5	34.3	86.4	70.1	80.3	72.7	83.7	50.3	49.2	50.4	62.5	60.4	18.2	25.5	52.2	64.6	43.6	55.2	49.2	79.5
PLM3B	96.1	37.4	89.4	74.7	83.4	79.3	84.8	55.3	54.9	58.9	66.2	66.9	23.4	30.9	60.4	69.3	47.2	57.7	55.5	76.5
PLM8B	99.7	35.9	90.7	77.1	84.1	82.7	84.9	59.3	58.3	63.5	67.3	68.8	28.3	33.2	61.4	72.7	46.4	58.6	57.7	77.3

📄 許可證

本模型遵循 FAIR 非商業研究許可證。點擊下方 “我接受” 或使用、分發研究材料的任何部分或元素，即表示您同意受本協議的約束。

許可證詳細信息

許可證權利和再分發：授予您非排他性、全球性、不可轉讓且免版稅的有限許可，以使用、複製、分發、拷貝、創建衍生作品並對研究材料進行修改。但不得將研究材料用於商業用途，再分發需遵循本協議條款。
用戶支持：Meta 不提供研究材料的支持服務，使用由您自行決定。
免責聲明：研究材料按 “原樣” 提供，Meta 不承擔任何形式的保證責任。
責任限制：Meta 及其關聯公司不對因本協議引起的任何損失或損害承擔責任。
知識產權：您對自己創建的衍生作品和修改擁有所有權，但如果對 Meta 提起侵權訴訟，本協議授予您的許可證將終止。
期限和終止：協議自您接受或訪問研究材料時生效，直至按協議條款終止。若您違反協議，Meta 可終止協議。
適用法律和管轄權：本協議受加利福尼亞州法律管轄，相關爭議由加利福尼亞州法院專屬管轄。
修改和修訂：Meta 可隨時修改協議，您繼續使用研究材料即表示同意修改。

可接受使用政策

您同意不將研究材料用於以下禁止用途：

違法或侵犯他人權利：包括從事、促進、鼓勵非法活動或內容，如暴力、恐怖主義、兒童剝削等。
危害人身安全：從事、促進、協助可能導致人員死亡或身體傷害的活動，如軍事、武器開發等。
欺騙或誤導他人：生成、推廣欺詐或虛假信息，包括虛假評論等。
未適當披露風險：未向最終用戶適當披露研究材料的已知危險。

如發現違反本政策的情況，請通過此鏈接提交報告。

📖 引用

如果您覺得我們的代碼對您的研究有幫助，請考慮引用以下論文：

@article{cho2025PerceptionLM,
  title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
  author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}

@article{bolya2025PerceptionEncoder,
  title={Perception Encoder: The best visual embeddings are not at the output of the network},
  author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}