Perception LM 3B
模型概述
該模型是Meta發佈的研究用預訓練語言模型,適用於非商業研究用途
模型特點
非商業研究許可
遵循FAIR非商業研究許可協議,允許用於研究、開發和教育目的
PyTorch支持
基於PyTorch框架構建,便於研究人員使用和擴展
完整研究套件
提供訓練模型權重、推理代碼、訓練支持代碼和文檔等完整研究材料
模型能力
文本理解
文本生成
語言建模
使用案例
學術研究
語言模型研究
用於自然語言處理領域的模型架構和訓練方法研究
教育應用
教學演示
作為機器學習課程的實踐案例
🚀 感知語言模型(PLM)
感知語言模型(PLM)是一款先進的、完全開放且可復現的多模態大語言模型(MLLM),旨在為圖像和視頻理解的透明研究提供支持。它能夠助力研究人員深入探索圖像和視頻領域,推動相關技術的發展。
🚀 快速開始
感知語言模型(PLM)由一個小尺度(參數少於 80 億)的視覺編碼器和大語言模型解碼器組成。研究團隊首先分析了現有數據的標準訓練流程,未使用任何專有模型蒸餾技術。通過研究大規模合成數據並建立關鍵縮放定律,確定了限制視頻理解性能的數據缺口,特別是在時空推理和細粒度理解任務方面。為填補這些缺口,團隊創建了 280 萬個高質量人工標註數據,這一規模比現有最大的視頻數據集大了近一個數量級。
你可以在 perception_models 代碼庫 中找到訓練和評估代碼,更多詳細信息可在 GitHub 倉庫中查看。
✨ 主要特性
- 先進架構:採用小尺度視覺編碼器與大語言模型解碼器結合的架構,為圖像和視頻理解研究提供了新的思路。
- 數據驅動:通過分析現有數據和創建大規模高質量人工標註數據,有效填補數據缺口,提升模型性能。
- 開放可復現:完全開放且可復現,方便研究人員進行透明研究,推動領域發展。
📚 詳細文檔
模型詳情
感知語言模型(PLM)在論文 "PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding" 中被提出。
資源與文檔
資源 | 描述 | 文檔 |
---|---|---|
評估 | 使用 lmms-eval 對 PLM 進行評估 | docs/evaluation.md |
訓練 / 微調 | PLM 的訓練和微調說明 | docs/training.md |
PLM-VideoBench 評估 | 使用 lmms-eval 在 PLM-VideoBench 上進行評估 | docs/plm_videobench.md |
端到端微調示例 | 放射學圖像的端到端微調示例 | docs/finetune_example.md |
生成響應 | 使用訓練好的模型通過 generate.py 生成響應 |
generate.py |
PLM 圖像基準測試結果
模型 | DocVQA | ChartQA | TextVQA | InfoQA | AI2D | OCRBench | COCO | Nocap | Flickr | MMMU | VQAv2 | OKVQA | VizWiz | MME | SEED | BLINK | CVBench | RealWorldQA | VSR | POPE |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 90.7 | 78.6 | 82.1 | 63.0 | 84.9 | 807 | 138.6 | 124.2 | 100.5 | 34.8 | 81.7 | 61.0 | 59.7 | 1603 | 76.3 | 46.8 | 73.8 | 67.1 | 68.8 | 88.4 |
PLM3B | 93.8 | 84.3 | 84.3 | 74.6 | 90.9 | 830 | 144.9 | 126.5 | 98.0 | 41.2 | 84.3 | 66.8 | 64.0 | 1879 | 78.5 | 55.4 | 81.4 | 72.4 | 80.4 | 88.7 |
PLM8B | 94.6 | 85.5 | 86.5 | 80.9 | 92.7 | 870 | 146.7 | 129.9 | 105.6 | 46.1 | 85.6 | 69.6 | 67.0 | 1989 | 79.3 | 56.0 | 81.3 | 75.0 | 82.8 | 89.9 |
PLM 視頻基準測試結果
模型 | VATEX | DREAM 1K | How2QA | MVBench | NExTQA | PerceptionTest (test) | STAR | TVQA | VideoMME | TVBench | ActivityNetQA | EgoSchema (test) | TemporalBench | TOMATO | MotionBench (dev) | TempCompass (MCQ) | CGBench (clue) | Charades STA | VideoHallucer | Halluc. EventHallusion |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 92.5 | 34.3 | 86.4 | 70.1 | 80.3 | 72.7 | 83.7 | 50.3 | 49.2 | 50.4 | 62.5 | 60.4 | 18.2 | 25.5 | 52.2 | 64.6 | 43.6 | 55.2 | 49.2 | 79.5 |
PLM3B | 96.1 | 37.4 | 89.4 | 74.7 | 83.4 | 79.3 | 84.8 | 55.3 | 54.9 | 58.9 | 66.2 | 66.9 | 23.4 | 30.9 | 60.4 | 69.3 | 47.2 | 57.7 | 55.5 | 76.5 |
PLM8B | 99.7 | 35.9 | 90.7 | 77.1 | 84.1 | 82.7 | 84.9 | 59.3 | 58.3 | 63.5 | 67.3 | 68.8 | 28.3 | 33.2 | 61.4 | 72.7 | 46.4 | 58.6 | 57.7 | 77.3 |
📄 許可證
本模型遵循 FAIR 非商業研究許可證。點擊下方 “我接受” 或使用、分發研究材料的任何部分或元素,即表示您同意受本協議的約束。
許可證詳細信息
- 許可證權利和再分發:授予您非排他性、全球性、不可轉讓且免版稅的有限許可,以使用、複製、分發、拷貝、創建衍生作品並對研究材料進行修改。但不得將研究材料用於商業用途,再分發需遵循本協議條款。
- 用戶支持:Meta 不提供研究材料的支持服務,使用由您自行決定。
- 免責聲明:研究材料按 “原樣” 提供,Meta 不承擔任何形式的保證責任。
- 責任限制:Meta 及其關聯公司不對因本協議引起的任何損失或損害承擔責任。
- 知識產權:您對自己創建的衍生作品和修改擁有所有權,但如果對 Meta 提起侵權訴訟,本協議授予您的許可證將終止。
- 期限和終止:協議自您接受或訪問研究材料時生效,直至按協議條款終止。若您違反協議,Meta 可終止協議。
- 適用法律和管轄權:本協議受加利福尼亞州法律管轄,相關爭議由加利福尼亞州法院專屬管轄。
- 修改和修訂:Meta 可隨時修改協議,您繼續使用研究材料即表示同意修改。
可接受使用政策
您同意不將研究材料用於以下禁止用途:
- 違法或侵犯他人權利:包括從事、促進、鼓勵非法活動或內容,如暴力、恐怖主義、兒童剝削等。
- 危害人身安全:從事、促進、協助可能導致人員死亡或身體傷害的活動,如軍事、武器開發等。
- 欺騙或誤導他人:生成、推廣欺詐或虛假信息,包括虛假評論等。
- 未適當披露風險:未向最終用戶適當披露研究材料的已知危險。
如發現違反本政策的情況,請通過 此鏈接 提交報告。
📖 引用
如果您覺得我們的代碼對您的研究有幫助,請考慮引用以下論文:
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98