开源Llama 3.2-Vision多模态大模型，免费部署支持图像识别、描述及问答！

首页

Llama3.2 11B Vision Instruct INT4 GPTQ

由 fahadh4ilyas 开发

Llama 3.2-Vision是Meta开发的多模态大语言模型，具备图像推理和文本生成能力，支持视觉识别、图像描述和问答等任务。

图像生成文本

Transformers

支持多种语言#多模态视觉推理 #128k长上下文 #跨模态问答

下载量 1,770

发布时间 : 4/8/2025

模型简介

Llama 3.2-Vision是基于Llama 3.1纯文本模型构建的多模态大语言模型，通过视觉适配器支持图像输入，适用于视觉问答、图像描述等多种任务。

模型特点

多模态能力

同时处理图像和文本输入，实现跨模态理解和生成

大规模预训练

基于60亿（图像，文本）对数据进行训练，具备强大的视觉语言理解能力

长上下文支持

支持128k的上下文长度，适合处理复杂任务

高效推理

采用分组查询注意力（GQA）技术，提高推理效率

模型能力

图像理解

文本生成

视觉问答

图像描述

文档理解

视觉定位

图像-文本检索

使用案例

视觉问答

图像内容问答

回答关于图像内容的自然语言问题

准确理解图像内容并提供相关回答

文档处理

文档视觉问答

理解文档（如合同、地图）的文本和布局并回答问题

直接从文档图像中提取信息并回答问题

内容生成

图像描述生成

为图像生成详细的自然语言描述

生成准确、流畅的图像描述

🚀 Llama 3.2-Vision模型

Llama 3.2-Vision是一系列多模态大语言模型，具备图像推理和文本生成能力。它在常见行业基准测试中表现出色，可用于视觉识别、图像推理、图像描述和问答等任务。

🚀 快速开始

模型信息

Llama 3.2-Vision系列多模态大语言模型（LLMs）是一组预训练和指令微调的图像推理生成模型，有11B和90B两种规模（输入为文本 + 图像，输出为文本）。Llama 3.2-Vision的指令微调模型针对视觉识别、图像推理、图像描述以及回答有关图像的一般性问题进行了优化。在常见的行业基准测试中，这些模型的表现优于许多现有的开源和闭源多模态模型。

属性	详情
模型开发者	Meta
模型架构	Llama 3.2-Vision基于Llama 3.1纯文本模型构建，这是一个使用优化变压器架构的自回归语言模型。微调版本使用监督微调（SFT）和基于人类反馈的强化学习（RLHF），以符合人类对有用性和安全性的偏好。为支持图像识别任务，Llama 3.2-Vision模型使用了一个单独训练的视觉适配器，该适配器与预训练的Llama 3.1语言模型集成。适配器由一系列交叉注意力层组成，将图像编码器表示输入到核心大语言模型中。
训练数据	（图像，文本）对
参数	11B（10.6）和90B（88.8）
输入模态	文本 + 图像
输出模态	文本
上下文长度	128k
GQA	是
数据量	60亿（图像，文本）对
知识截止日期	2023年12月

支持的语言：对于纯文本任务，官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2的训练数据涵盖的语言比这8种支持的语言更广泛。请注意，对于图像 + 文本应用，仅支持英语。

开发者可以根据Llama 3.2社区许可证和可接受使用政策，对Llama 3.2模型进行微调，以支持这些支持语言之外的其他语言。开发者应始终确保其部署（包括涉及其他语言的部署）是安全和负责任的。

Llama 3.2模型家族：令牌计数仅指预训练数据。所有模型版本都使用分组查询注意力（GQA）以提高推理可扩展性。

模型发布日期：2024年9月25日

状态：这是一个基于离线数据集训练的静态模型。未来可能会发布改进模型能力和安全性的新版本。

许可证：使用Llama 3.2受Llama 3.2社区许可证（自定义商业许可协议）的约束。

反馈：有关模型的问题或评论，请参考模型README中的说明。有关生成参数的更多技术信息以及如何在应用程序中使用Llama 3.2-Vision的方法，请访问此处。

预期用途

预期用例：Llama 3.2-Vision旨在用于商业和研究。指令微调模型适用于视觉识别、图像推理、图像描述以及与图像相关的类似助手的对话，而预训练模型可用于各种图像推理任务。此外，由于Llama 3.2-Vision能够接受图像和文本作为输入，还可能有以下用例：

视觉问答（VQA）和视觉推理：就像一台机器可以查看图片并理解你关于它的问题。
文档视觉问答（DocVQA）：想象一台计算机能够理解文档（如地图或合同）的文本和布局，然后直接从图像中回答关于它的问题。
图像描述：图像描述弥合了视觉和语言之间的差距，提取细节、理解场景，然后撰写一两个句子来讲述故事。
图像 - 文本检索：图像 - 文本检索就像图像和其描述之间的媒人。类似于搜索引擎，但它能够理解图片和文字。
视觉定位：视觉定位就像连接我们所看到的和所说的之间的点。它涉及理解语言如何引用图像的特定部分，使AI模型能够根据自然语言描述确定对象或区域的位置。

Llama 3.2模型系列还支持利用其模型的输出来改进其他模型，包括合成数据生成和蒸馏。Llama 3.2社区许可证允许这些用例。

超出范围：以任何违反适用法律法规（包括贸易合规法律）的方式使用。以可接受使用政策和Llama 3.2社区许可证禁止的任何其他方式使用。使用此模型卡中未明确提及为支持的语言。

如何使用

此存储库包含两个版本的Llama-3.2-11B-Vision-Instruct，用于与transformers一起使用。

许可证

LLAMA 3.2社区许可协议

Llama 3.2版本发布日期：2024年9月25日

“协议”指本协议中规定的使用、复制、分发和修改Llama材料的条款和条件。

“文档”指Meta在https://llama.meta.com/doc/overview 上分发的与Llama 3.2相关的规范、手册和文档。

“被许可人”或“您”指您，或您的雇主，或任何其他人或实体（如果您代表该人或实体签订本协议），且您已达到适用法律、规则或法规要求的提供合法同意的年龄，并且如果您代表他们签订本协议，您具有约束您的雇主或该其他人或实体的合法权力。

“Llama 3.2”指Meta在https://www.llama.com/llama-downloads 上分发的基础大语言模型、软件和算法，包括机器学习模型代码、训练好的模型权重、推理启用代码、训练启用代码、微调启用代码以及上述内容的其他元素。

“Llama材料”指根据本协议提供的Meta专有的Llama 3.2和文档（及其任何部分）的统称。

“Meta”或“我们”指Meta Platforms Ireland Limited（如果您位于欧洲经济区（EEA）或瑞士，或者如果您是一个实体，您的主要营业地点在欧洲经济区或瑞士）和Meta Platforms, Inc.（如果您位于欧洲经济区或瑞士以外）。

通过点击下面的“我接受”，或使用或分发Llama材料的任何部分或元素，您同意受本协议的约束。

许可权利和再分发
- 权利授予：您被授予在Meta体现在Llama材料中的知识产权或其他权利下的非排他性、全球性、不可转让和免版税的有限许可，以使用、复制、分发、拷贝、创作衍生作品并对Llama材料进行修改。
- 再分发和使用
  - 如果您分发或提供Llama材料（或其任何衍生作品），或包含其中任何内容的产品或服务（包括另一个AI模型），您应（A）随任何此类Llama材料提供本协议的副本；（B）在相关网站、用户界面、博客文章、关于页面或产品文档上显著显示“Built with Llama”。如果您使用Llama材料或Llama材料的任何输出或结果来创建、训练、微调或以其他方式改进一个AI模型，并进行分发或提供该模型，您还应在任何此类AI模型名称的开头包含“Llama”。
  - 如果您作为集成最终用户产品的一部分从被许可人处接收Llama材料或其任何衍生作品，则本协议第2条不适用于您。
  - 您必须在您分发的所有Llama材料副本中，在作为此类副本一部分分发的“通知”文本文件中保留以下归属声明：“Llama 3.2根据Llama 3.2社区许可证获得许可，版权所有 © Meta Platforms, Inc.保留所有权利。”
  - 您对Llama材料的使用必须符合适用法律法规（包括贸易合规法律和法规），并遵守Llama材料的可接受使用政策（可在https://www.llama.com/llama3_2/use-policy 上获取），该政策特此通过引用并入本协议。
额外商业条款：如果在Llama 3.2版本发布日期，被许可人或被许可人的关联公司提供的产品或服务的月活跃用户在前一个日历月超过7亿，则您必须向Meta请求许可，Meta可自行决定是否授予您许可，并且在Meta明确授予您此类权利之前，您无权行使本协议下的任何权利。
保修免责声明：除非适用法律要求，否则Llama材料及其任何输出和结果按“现状”提供，不提供任何形式的保证，Meta否认所有明示和暗示的保证，包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保证。您独自负责确定使用或再分发Llama材料的适当性，并承担与您使用Llama材料及其任何输出和结果相关的任何风险。
责任限制：在任何情况下，Meta或其关联公司均不对因本协议引起的任何利润损失或任何间接、特殊、后果性、偶发性、惩戒性或惩罚性损害承担责任，无论责任理论如何（包括合同、侵权、疏忽、产品责任或其他），即使Meta或其关联公司已被告知任何上述损害的可能性。
知识产权
- 本协议未授予商标许可，并且与Llama材料相关，除非为描述和再分发Llama材料的合理和惯常使用所需，或如本节5(a)所述，否则Meta和被许可人均不得使用对方或其任何关联公司拥有或关联的任何名称或标志。Meta特此授予您仅为遵守第1.b.i节最后一句所需而使用“Llama”（“标志”）的许可。您将遵守Meta的品牌指南（目前可在https://about.meta.com/brand/resources/meta/company-brand/ 上访问）。因您使用标志而产生的所有商誉将归Meta所有。
- 鉴于Meta对Llama材料及其为Meta制作的衍生作品的所有权，就您制作的Llama材料的任何衍生作品和修改而言，在您和Meta之间，您是且将是此类衍生作品和修改的所有者。
- 如果您对Meta或任何实体提起诉讼或其他程序（包括在诉讼中的交叉索赔或反诉），声称Llama材料或Llama 3.2的输出或结果，或上述任何内容的任何部分，构成侵犯您拥有或可许可的知识产权或其他权利，则本协议授予您的任何许可应自该诉讼或索赔提起之日起终止。您将赔偿并使Meta免受任何第三方因您使用或分发Llama材料而产生或与之相关的任何索赔。
期限和终止：本协议的期限自您接受本协议或访问Llama材料之日起开始，并将持续有效，直至根据本协议的条款和条件终止。如果您违反本协议的任何条款或条件，Meta可终止本协议。本协议终止后，您应删除并停止使用Llama材料。第3、4和7节在本协议终止后仍然有效。
适用法律和管辖权：本协议将受加利福尼亚州法律管辖并依其解释，不考虑法律选择原则，并且《联合国国际货物销售合同公约》不适用于本协议。加利福尼亚州的法院对因本协议引起的任何争议具有专属管辖权。

Llama 3.2可接受使用政策

Meta致力于促进其工具和功能（包括Llama 3.2）的安全和公平使用。如果您访问或使用Llama 3.2，您同意本可接受使用政策（“政策”）。本政策的最新版本可在https://www.llama.com/llama3_2/use-policy上找到。

禁止使用

我们希望每个人都能安全、负责任地使用Llama 3.2。您同意您不会使用或允许他人使用Llama 3.2进行以下行为：

违反法律或他人权利，包括：
- 从事、促进、生成、促成、鼓励、策划、煽动或进一步推动非法或违法活动或内容，例如：
  - 暴力或恐怖主义
  - 对儿童的剥削或伤害，包括招揽、创建、获取或传播儿童剥削内容或未能报告儿童性虐待材料
  - 人口贩运、剥削和性暴力
  - 向未成年人非法分发信息或材料，包括淫秽材料，或未能对此类信息或材料采用法律要求的年龄限制
  - 性招揽
  - 任何其他犯罪活动
- 从事、促进、煽动或便利对个人或群体的骚扰、虐待、威胁或欺凌
- 从事、促进、煽动或便利在就业、就业福利、信贷、住房、其他经济福利或其他基本商品和服务的提供方面的歧视或其他非法或有害行为
- 从事未经授权或无执照的任何专业实践，包括但不限于金融、法律、医疗/健康或相关专业实践
- 收集、处理、披露、生成或推断个人的私人或敏感信息，包括个人身份、健康或人口统计信息，除非您已根据适用法律获得这样做的权利
- 从事或便利任何侵犯、盗用或以其他方式侵犯任何第三方权利的行为或生成任何内容，包括使用Llama材料的任何产品或服务的输出或结果
- 创建、生成或便利创建恶意代码、恶意软件、计算机病毒或进行任何其他可能禁用、使负担过重、干扰或损害网站或计算机系统的正常运行、完整性、操作或外观的行为
- 从事任何行为或便利任何行为，故意规避或移除使用限制或其他安全措施，或启用Meta禁用的功能
从事、促进、煽动、便利或协助策划或开展对个人造成死亡或身体伤害风险的活动，包括与以下相关的Llama 3.2的使用：
- 军事、战争、核工业或应用、间谍活动、用于受美国国务院维护的《国际武器贸易条例》（ITAR）或1989年《美国生物武器反恐法》或1997年《化学武器公约实施法》约束的材料或活动
- 枪支和非法武器（包括武器开发）
- 非法药物和受管制/受控物质
- 关键基础设施、运输技术或重型机械的操作
- 自我伤害或伤害他人，包括自杀、自残和饮食失调
- 任何旨在煽动或促进暴力、虐待或对个人造成身体伤害的内容
故意欺骗或误导他人，包括与以下相关的Llama 3.2的使用：
- 生成、促进或进一步推动欺诈或创建或促进虚假信息
- 生成、促进或进一步推动诽谤性内容，包括创建诽谤性声明、图像或其他内容
- 生成、促进或进一步分发垃圾邮件
- 在未经同意、授权或合法权利的情况下冒充他人
- 表示Llama 3.2的使用或输出是人类生成的
- 生成或便利虚假的在线互动，包括虚假评论和其他虚假在线互动方式
未能向最终用户适当披露您的AI系统的任何已知危险
与旨在生成非法内容或从事非法或有害行为的第三方工具、模型或软件进行交互，并/或表示此类工具、模型或软件的输出与Meta或Llama 3.2相关