模型简介
模型特点
模型能力
使用案例
🚀 感知语言模型(PLM)
感知语言模型(PLM)是一款先进的、完全开放且可复现的多模态大语言模型(MLLM),专为图像和视频理解的透明研究而设计。它能助力研究者更深入地开展相关领域的研究,推动图像和视频理解技术的发展。
🚀 快速开始
感知语言模型(PLM)在图像和视频理解研究领域具有重要地位。它由一个小尺度(参数少于 80 亿)的视觉编码器和大语言模型(LLM)解码器组成。研究团队首先对现有数据的标准训练流程进行分析,未采用任何专有模型蒸馏技术。通过研究大规模合成数据并建立关键缩放定律,识别出限制视频理解性能的数据缺口,特别是在时空推理和细粒度理解任务方面。为填补这些缺口,团队创建了 280 万个高质量人工标注数据,这一数据量比现有最大的视频数据集大了近一个数量级。
训练和评估代码可在 perception_models 代码库 中获取,更多详细信息可在 GitHub 仓库中查看。
✨ 主要特性
模型概述
PLM 由小尺度视觉编码器和 LLM 解码器构成,通过对标准训练流程的分析和大规模合成数据的研究,识别数据缺口并创建大量高质量人工标注数据,以提升视频理解性能。
研究成果
相关研究成果发表在论文 "PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding" 中,技术报告可查看 [📃 Tech Report] ,GitHub 仓库为 [📂 Github] 。
资源文档
资源 | 描述 | 文档 |
---|---|---|
评估 | 使用 lmms-eval 对 PLM 进行评估 | docs/evaluation.md |
训练 / 微调 | PLM 的训练和微调说明 | docs/training.md |
PLM-VideoBench 评估 | 使用 lmms-eval 在 PLM-VideoBench 上进行评估 | docs/plm_videobench.md |
端到端微调示例 | 放射学图像的端到端微调示例 | docs/finetune_example.md |
生成响应 | 使用训练好的模型通过 generate.py 生成响应 |
generate.py |
图像基准测试结果
模型 | DocVQA | ChartQA | TextVQA | InfoQA | AI2D | OCRBench | COCO | Nocap | Flickr | MMMU | VQAv2 | OKVQA | VizWiz | MME | SEED | BLINK | CVBench | RealWorldQA | VSR | POPE |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 90.7 | 78.6 | 82.1 | 63.0 | 84.9 | 807 | 138.6 | 124.2 | 100.5 | 34.8 | 81.7 | 61.0 | 59.7 | 1603 | 76.3 | 46.8 | 73.8 | 67.1 | 68.8 | 88.4 |
PLM3B | 93.8 | 84.3 | 84.3 | 74.6 | 90.9 | 830 | 144.9 | 126.5 | 98.0 | 41.2 | 84.3 | 66.8 | 64.0 | 1879 | 78.5 | 55.4 | 81.4 | 72.4 | 80.4 | 88.7 |
PLM8B | 94.6 | 85.5 | 86.5 | 80.9 | 92.7 | 870 | 146.7 | 129.9 | 105.6 | 46.1 | 85.6 | 69.6 | 67.0 | 1989 | 79.3 | 56.0 | 81.3 | 75.0 | 82.8 | 89.9 |
视频基准测试结果
模型 | VATEX | DREAM 1K | How2QA | MVBench | NExTQA | PerceptionTest (test) | STAR | TVQA | VideoMME | TVBench | ActivityNetQA | EgoSchema (test) | TemporalBench | TOMATO | MotionBench (dev) | TempCompass (MCQ) | CGBench (clue) | Charades STA | VideoHallucer | Halluc. EventHallusion |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 92.5 | 34.3 | 86.4 | 70.1 | 80.3 | 72.7 | 83.7 | 50.3 | 49.2 | 50.4 | 62.5 | 60.4 | 18.2 | 25.5 | 52.2 | 64.6 | 43.6 | 55.2 | 49.2 | 79.5 |
PLM3B | 96.1 | 37.4 | 89.4 | 74.7 | 83.4 | 79.3 | 84.8 | 55.3 | 54.9 | 58.9 | 66.2 | 66.9 | 23.4 | 30.9 | 60.4 | 69.3 | 47.2 | 57.7 | 55.5 | 76.5 |
PLM8B | 99.7 | 35.9 | 90.7 | 77.1 | 84.1 | 82.7 | 84.9 | 59.3 | 58.3 | 63.5 | 67.3 | 68.8 | 28.3 | 33.2 | 61.4 | 72.7 | 46.4 | 58.6 | 57.7 | 77.3 |
📄 许可证
FAIR 非商业研究许可证
定义
- “可接受使用政策” 指适用于研究材料的 FAIR 可接受使用政策,该政策已纳入本协议。
- “协议” 指本协议中规定的研究材料的使用、复制、分发和修改的条款和条件。
- “文档” 指 Meta 分发的研究材料所附带的规格说明、手册和文档。
- “被许可方” 或 “您” 指您本人,或您的雇主,或任何其他个人或实体(如果您代表该个人或实体签订本协议),且该个人或实体达到适用法律、规则或法规要求的提供法律同意的年龄,并具有在您代表其签订本协议时约束您的雇主或该其他个人或实体的法律权力。
- “Meta” 或 “我们” 指 Meta Platforms Ireland Limited(如果您位于欧洲经济区(EEA)或瑞士,或者如果您是一个实体,您的主要营业地位于 EEA 或瑞士)和 Meta Platforms, Inc.(如果您位于 EEA 或瑞士以外)。
- “非商业研究用途” 指与研究、开发、教育、处理或分析相关的非商业研究用例,且在每种情况下,主要目的不是为您或他人带来商业利益或金钱补偿。
- “研究材料” 指文档以及模型、软件和算法的统称,包括机器学习模型代码、训练好的模型权重、推理启用代码、训练启用代码、微调启用代码、演示材料以及 Meta 根据本协议分发并提供的上述其他元素。
许可权利和再分发
- 权利授予:您被授予在研究材料中体现的 Meta 知识产权或 Meta 拥有的其他权利下的非排他性、全球性、不可转让且免版税的有限许可,以使用、复制、分发、拷贝、创作衍生作品并对研究材料进行修改。
- 再分发和使用
- 您不得将研究材料或研究材料的任何输出或结果用于任何商业用途,或用于非商业研究用途以外的任何用途。
- 研究材料及其任何衍生作品的分发须遵守本协议的条款。如果您将研究材料或其任何衍生作品分发给第三方,您只能根据本协议的条款进行分发,并向该第三方提供本协议的副本。
- 如果您提交使用研究材料进行的研究结果以供发表,您必须在出版物中承认使用了研究材料。
- 您对研究材料的使用必须遵守适用的法律和法规(包括贸易管制法律),并遵守 FAIR 可接受使用政策,该政策通过引用纳入本协议。
用户支持
您对研究材料的非商业研究使用由您自行决定;Meta 不处理任何与该使用相关的信息,也不提供任何服务。Meta 没有义务为研究材料提供任何支持服务。提供的任何支持均 “按现状”、“带有所有缺陷” 提供,且不提供任何形式的保证。
免责声明
除非适用法律要求,研究材料及其任何输出和结果均 “按现状” 提供,不提供任何形式的保证,Meta 明确否认所有明示和暗示的保证,包括但不限于所有权、不侵权、适销性或特定用途适用性的保证。您独自负责确定使用或再分发研究材料的适当性,并承担与您使用研究材料及其任何输出和结果相关的任何风险。
责任限制
无论在何种责任理论下,包括合同、侵权、疏忽、产品责任或其他情况,Meta 或其关联公司均不对因本协议引起的任何利润损失或任何直接或间接、特殊、后果性、偶然、惩戒性或惩罚性损害承担责任,即使 Meta 或其关联公司已被告知此类损害的可能性。
知识产权
- 除 Meta 对研究材料及其由 Meta 或代表 Meta 制作的衍生作品的所有权外,就您制作的研究材料的任何衍生作品和修改而言,在您和 Meta 之间,您是且将是此类衍生作品和修改的所有者。
- 如果您对 Meta 或任何实体提起诉讼或其他法律程序(包括在诉讼中的交叉索赔或反诉),声称研究材料、输出或结果或上述任何部分构成侵犯您拥有或可许可的知识产权或其他权利,则本协议授予您的任何许可将自提起此类诉讼或索赔之日起终止。您将赔偿并使 Meta 免受因您使用或分发研究材料而引起的或与之相关的任何第三方索赔。
期限和终止
本协议的期限将自您接受本协议或访问研究材料之日起开始,并将持续有效,直至根据本协议的条款和条件终止。如果您违反本协议的任何条款或条件,Meta 可终止本协议。本协议终止后,您应删除并停止使用研究材料。第 5、6 和 9 条在本协议终止后仍然有效。
适用法律和管辖权
本协议将受加利福尼亚州法律管辖并依其解释,不考虑法律选择原则,且《联合国国际货物销售合同公约》不适用于本协议。加利福尼亚州的法院对因本协议引起的任何争议具有专属管辖权。
修改和修订
Meta 可不时通过在 [https://huggingface.co/facebook/Perception-LM-8B/blob/main/LICENSE] 上发布修订版本来修改本协议。前提是这些修订在精神上与本协议的当前版本相似,但在细节上可能有所不同,以解决新的问题或担忧。所有此类更改将立即生效。您在本协议任何修改后继续使用研究材料即表示您同意此类修改。除非本协议另有规定,否则对本协议任何条款的修改或补充除非以书面形式并由您和 Meta 的授权代表签署,否则不具有约束力。
FAIR 可接受使用政策
Meta 的基础人工智能研究(FAIR)团队旨在通过开放研究推进人工智能的前沿技术,以造福所有人,进一步理解新的和现有的研究领域。作为这一使命的一部分,Meta 提供某些研究材料供非商业研究使用,并致力于促进此类研究材料的安全和负责任使用。
禁止使用情况
- 违法或侵犯他人权利:您同意不使用或允许他人使用研究材料来从事、促进、生成、促成、鼓励、策划、煽动或进一步推动非法或违法活动或内容,包括暴力或恐怖主义、对儿童的剥削或伤害、人口贩运、性暴力、向未成年人非法分发信息或材料、性引诱以及任何其他犯罪活动。同时,不得从事、促进、煽动或便利对个人或群体的骚扰、虐待、威胁或欺凌,不得从事、促进、煽动或便利在就业、就业福利、信贷、住房、其他经济福利或其他基本商品和服务提供方面的歧视或其他非法或有害行为。
- 未经授权的专业实践:不得从事未经授权或无执照的任何专业实践,包括但不限于金融、法律、医疗/健康或相关专业实践。
- 收集敏感信息:不得在未获得适用法律要求的权利和同意的情况下,收集、处理、披露、生成或推断个人的健康、人口统计或其他敏感个人或私人信息。
- 侵犯第三方权利:不得从事或便利任何侵犯、盗用或以其他方式侵犯任何第三方权利的行为,包括使用 FAIR 研究材料的任何技术的输出或结果。
- 创建恶意代码:不得创建、生成或便利创建恶意代码、恶意软件、计算机病毒,或做任何可能禁用、使网站或计算机系统负担过重、干扰或损害其正常工作、完整性、操作或外观的事情。
- 从事危险活动:不得从事、促进、煽动、便利或协助策划或开展对个人生命或身体造成伤害风险的活动,包括使用与军事、战争、核工业或应用、间谍活动、受美国国务院维护的国际武器贸易条例(ITAR)管制的材料或活动、枪支和非法武器(包括武器开发)、非法药物和受管制/受控物质、关键基础设施运营、运输技术或重型机械、自我伤害或伤害他人(包括自杀、自残和饮食失调)以及任何旨在煽动或促进暴力、虐待或对个人造成身体伤害的内容相关的研究制品。
- 欺骗或误导他人:不得故意欺骗或误导他人,包括使用与生成、促进或进一步推动欺诈或虚假信息的创建或推广、生成、促进或进一步推动诽谤性内容、生成、促进或进一步分发垃圾邮件、未经同意、授权或合法权利冒充他人、声称 FAIR 研究材料的输出或使用 FAIR 研究材料的技术的输出是人类生成的、生成或便利虚假的在线互动(包括虚假评论和其他虚假在线互动方式)相关的 FAIR 研究材料。
- 未适当披露危险:不得未能向最终用户适当披露您的研究材料的任何已知危险。
违规报告
如果发现违反本政策的情况或可能导致违反本政策的其他问题,请通过 [https://docs.google.com/forms/d/e/1FAIpQLSeb11cryAopJ7LNrC4nxEUXrHY26hfkXQMf_uH-oFgA3WlYZQ/viewform] 提交报告。
📚 详细文档
模型访问说明
在访问模型时,请务必提供您的完整法定姓名、出生日期和包含所有公司标识符的完整组织名称,避免使用缩写和特殊字符。未能遵循这些说明可能会导致您无法访问此模型和 Hugging Face 上的其他模型。提交表单后,您将无法编辑该表单,因此请确保所有信息准确无误。
数据收集说明
您提供的信息将根据 Meta 隐私政策 进行收集、存储、处理和共享。
📖 引用
如果您发现我们的代码对您的研究有用,请考虑引用以下文献:
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}



