開源Llama 3.2-Vision多模態大模型，免費部署支持圖像識別、描述及問答！

首頁

Llama3.2 11B Vision Instruct INT4 GPTQ

由fahadh4ilyas開發

Llama 3.2-Vision是Meta開發的多模態大語言模型，具備圖像推理和文本生成能力，支持視覺識別、圖像描述和問答等任務。

圖像生成文本

Transformers

支持多種語言#多模態視覺推理 #128k長上下文 #跨模態問答

下載量 1,770

發布時間 : 4/8/2025

模型概述

Llama 3.2-Vision是基於Llama 3.1純文本模型構建的多模態大語言模型，通過視覺適配器支持圖像輸入，適用於視覺問答、圖像描述等多種任務。

模型特點

多模態能力

同時處理圖像和文本輸入，實現跨模態理解和生成

大規模預訓練

基於60億（圖像，文本）對數據進行訓練，具備強大的視覺語言理解能力

長上下文支持

支持128k的上下文長度，適合處理複雜任務

高效推理

採用分組查詢注意力（GQA）技術，提高推理效率

模型能力

圖像理解

文本生成

視覺問答

圖像描述

文檔理解

視覺定位

圖像-文本檢索

使用案例

視覺問答

圖像內容問答

回答關於圖像內容的自然語言問題

準確理解圖像內容並提供相關回答

文檔處理

文檔視覺問答

理解文檔（如合同、地圖）的文本和佈局並回答問題

直接從文檔圖像中提取信息並回答問題

內容生成

圖像描述生成

為圖像生成詳細的自然語言描述

生成準確、流暢的圖像描述

🚀 Llama 3.2-Vision模型

Llama 3.2-Vision是一系列多模態大語言模型，具備圖像推理和文本生成能力。它在常見行業基準測試中表現出色，可用於視覺識別、圖像推理、圖像描述和問答等任務。

🚀 快速開始

模型信息

Llama 3.2-Vision系列多模態大語言模型（LLMs）是一組預訓練和指令微調的圖像推理生成模型，有11B和90B兩種規模（輸入為文本 + 圖像，輸出為文本）。Llama 3.2-Vision的指令微調模型針對視覺識別、圖像推理、圖像描述以及回答有關圖像的一般性問題進行了優化。在常見的行業基準測試中，這些模型的表現優於許多現有的開源和閉源多模態模型。

屬性	詳情
模型開發者	Meta
模型架構	Llama 3.2-Vision基於Llama 3.1純文本模型構建，這是一個使用優化變壓器架構的自迴歸語言模型。微調版本使用監督微調（SFT）和基於人類反饋的強化學習（RLHF），以符合人類對有用性和安全性的偏好。為支持圖像識別任務，Llama 3.2-Vision模型使用了一個單獨訓練的視覺適配器，該適配器與預訓練的Llama 3.1語言模型集成。適配器由一系列交叉注意力層組成，將圖像編碼器表示輸入到核心大語言模型中。
訓練數據	（圖像，文本）對
參數	11B（10.6）和90B（88.8）
輸入模態	文本 + 圖像
輸出模態	文本
上下文長度	128k
GQA	是
數據量	60億（圖像，文本）對
知識截止日期	2023年12月

支持的語言：對於純文本任務，官方支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。Llama 3.2的訓練數據涵蓋的語言比這8種支持的語言更廣泛。請注意，對於圖像 + 文本應用，僅支持英語。

開發者可以根據Llama 3.2社區許可證和可接受使用政策，對Llama 3.2模型進行微調，以支持這些支持語言之外的其他語言。開發者應始終確保其部署（包括涉及其他語言的部署）是安全和負責任的。

Llama 3.2模型家族：令牌計數僅指預訓練數據。所有模型版本都使用分組查詢注意力（GQA）以提高推理可擴展性。

模型發佈日期：2024年9月25日

狀態：這是一個基於離線數據集訓練的靜態模型。未來可能會發布改進模型能力和安全性的新版本。

許可證：使用Llama 3.2受Llama 3.2社區許可證（自定義商業許可協議）的約束。

反饋：有關模型的問題或評論，請參考模型README中的說明。有關生成參數的更多技術信息以及如何在應用程序中使用Llama 3.2-Vision的方法，請訪問此處。

預期用途

預期用例：Llama 3.2-Vision旨在用於商業和研究。指令微調模型適用於視覺識別、圖像推理、圖像描述以及與圖像相關的類似助手的對話，而預訓練模型可用於各種圖像推理任務。此外，由於Llama 3.2-Vision能夠接受圖像和文本作為輸入，還可能有以下用例：

視覺問答（VQA）和視覺推理：就像一臺機器可以查看圖片並理解你關於它的問題。
文檔視覺問答（DocVQA）：想象一臺計算機能夠理解文檔（如地圖或合同）的文本和佈局，然後直接從圖像中回答關於它的問題。
圖像描述：圖像描述彌合了視覺和語言之間的差距，提取細節、理解場景，然後撰寫一兩個句子來講述故事。
圖像 - 文本檢索：圖像 - 文本檢索就像圖像和其描述之間的媒人。類似於搜索引擎，但它能夠理解圖片和文字。
視覺定位：視覺定位就像連接我們所看到的和所說的之間的點。它涉及理解語言如何引用圖像的特定部分，使AI模型能夠根據自然語言描述確定對象或區域的位置。

Llama 3.2模型系列還支持利用其模型的輸出來改進其他模型，包括合成數據生成和蒸餾。Llama 3.2社區許可證允許這些用例。

超出範圍：以任何違反適用法律法規（包括貿易合規法律）的方式使用。以可接受使用政策和Llama 3.2社區許可證禁止的任何其他方式使用。使用此模型卡中未明確提及為支持的語言。

如何使用

此存儲庫包含兩個版本的Llama-3.2-11B-Vision-Instruct，用於與transformers一起使用。

許可證

LLAMA 3.2社區許可協議

Llama 3.2版本發佈日期：2024年9月25日

“協議”指本協議中規定的使用、複製、分發和修改Llama材料的條款和條件。

“文檔”指Meta在https://llama.meta.com/doc/overview 上分發的與Llama 3.2相關的規範、手冊和文檔。

“被許可人”或“您”指您，或您的僱主，或任何其他人或實體（如果您代表該人或實體簽訂本協議），且您已達到適用法律、規則或法規要求的提供合法同意的年齡，並且如果您代表他們簽訂本協議，您具有約束您的僱主或該其他人或實體的合法權力。

“Llama 3.2”指Meta在https://www.llama.com/llama-downloads 上分發的基礎大語言模型、軟件和算法，包括機器學習模型代碼、訓練好的模型權重、推理啟用代碼、訓練啟用代碼、微調啟用代碼以及上述內容的其他元素。

“Llama材料”指根據本協議提供的Meta專有的Llama 3.2和文檔（及其任何部分）的統稱。

“Meta”或“我們”指Meta Platforms Ireland Limited（如果您位於歐洲經濟區（EEA）或瑞士，或者如果您是一個實體，您的主要營業地點在歐洲經濟區或瑞士）和Meta Platforms, Inc.（如果您位於歐洲經濟區或瑞士以外）。

通過點擊下面的“我接受”，或使用或分發Llama材料的任何部分或元素，您同意受本協議的約束。

許可權利和再分發
- 權利授予：您被授予在Meta體現在Llama材料中的知識產權或其他權利下的非排他性、全球性、不可轉讓和免版稅的有限許可，以使用、複製、分發、拷貝、創作衍生作品並對Llama材料進行修改。
- 再分發和使用
  - 如果您分發或提供Llama材料（或其任何衍生作品），或包含其中任何內容的產品或服務（包括另一個AI模型），您應（A）隨任何此類Llama材料提供本協議的副本；（B）在相關網站、用戶界面、博客文章、關於頁面或產品文檔上顯著顯示“Built with Llama”。如果您使用Llama材料或Llama材料的任何輸出或結果來創建、訓練、微調或以其他方式改進一個AI模型，並進行分發或提供該模型，您還應在任何此類AI模型名稱的開頭包含“Llama”。
  - 如果您作為集成最終用戶產品的一部分從被許可人處接收Llama材料或其任何衍生作品，則本協議第2條不適用於您。
  - 您必須在您分發的所有Llama材料副本中，在作為此類副本一部分分發的“通知”文本文件中保留以下歸屬聲明：“Llama 3.2根據Llama 3.2社區許可證獲得許可，版權所有 © Meta Platforms, Inc.保留所有權利。”
  - 您對Llama材料的使用必須符合適用法律法規（包括貿易合規法律和法規），並遵守Llama材料的可接受使用政策（可在https://www.llama.com/llama3_2/use-policy 上獲取），該政策特此通過引用併入本協議。
額外商業條款：如果在Llama 3.2版本發佈日期，被許可人或被許可人的關聯公司提供的產品或服務的月活躍用戶在前一個日曆月超過7億，則您必須向Meta請求許可，Meta可自行決定是否授予您許可，並且在Meta明確授予您此類權利之前，您無權行使本協議下的任何權利。
保修免責聲明：除非適用法律要求，否則Llama材料及其任何輸出和結果按“現狀”提供，不提供任何形式的保證，Meta否認所有明示和暗示的保證，包括但不限於所有權、不侵權、適銷性或特定用途適用性的任何保證。您獨自負責確定使用或再分發Llama材料的適當性，並承擔與您使用Llama材料及其任何輸出和結果相關的任何風險。
責任限制：在任何情況下，Meta或其關聯公司均不對因本協議引起的任何利潤損失或任何間接、特殊、後果性、偶發性、懲戒性或懲罰性損害承擔責任，無論責任理論如何（包括合同、侵權、疏忽、產品責任或其他），即使Meta或其關聯公司已被告知任何上述損害的可能性。
知識產權
- 本協議未授予商標許可，並且與Llama材料相關，除非為描述和再分發Llama材料的合理和慣常使用所需，或如本節5(a)所述，否則Meta和被許可人均不得使用對方或其任何關聯公司擁有或關聯的任何名稱或標誌。Meta特此授予您僅為遵守第1.b.i節最後一句所需而使用“Llama”（“標誌”）的許可。您將遵守Meta的品牌指南（目前可在https://about.meta.com/brand/resources/meta/company-brand/ 上訪問）。因您使用標誌而產生的所有商譽將歸Meta所有。
- 鑑於Meta對Llama材料及其為Meta製作的衍生作品的所有權，就您製作的Llama材料的任何衍生作品和修改而言，在您和Meta之間，您是且將是此類衍生作品和修改的所有者。
- 如果您對Meta或任何實體提起訴訟或其他程序（包括在訴訟中的交叉索賠或反訴），聲稱Llama材料或Llama 3.2的輸出或結果，或上述任何內容的任何部分，構成侵犯您擁有或可許可的知識產權或其他權利，則本協議授予您的任何許可應自該訴訟或索賠提起之日起終止。您將賠償並使Meta免受任何第三方因您使用或分發Llama材料而產生或與之相關的任何索賠。
期限和終止：本協議的期限自您接受本協議或訪問Llama材料之日起開始，並將持續有效，直至根據本協議的條款和條件終止。如果您違反本協議的任何條款或條件，Meta可終止本協議。本協議終止後，您應刪除並停止使用Llama材料。第3、4和7節在本協議終止後仍然有效。
適用法律和管轄權：本協議將受加利福尼亞州法律管轄並依其解釋，不考慮法律選擇原則，並且《聯合國國際貨物銷售合同公約》不適用於本協議。加利福尼亞州的法院對因本協議引起的任何爭議具有專屬管轄權。

Llama 3.2可接受使用政策

Meta致力於促進其工具和功能（包括Llama 3.2）的安全和公平使用。如果您訪問或使用Llama 3.2，您同意本可接受使用政策（“政策”）。本政策的最新版本可在https://www.llama.com/llama3_2/use-policy上找到。

禁止使用

我們希望每個人都能安全、負責任地使用Llama 3.2。您同意您不會使用或允許他人使用Llama 3.2進行以下行為：

違反法律或他人權利，包括：
- 從事、促進、生成、促成、鼓勵、策劃、煽動或進一步推動非法或違法活動或內容，例如：
  - 暴力或恐怖主義
  - 對兒童的剝削或傷害，包括招攬、創建、獲取或傳播兒童剝削內容或未能報告兒童性虐待材料
  - 人口販運、剝削和性暴力
  - 向未成年人非法分發信息或材料，包括淫穢材料，或未能對此類信息或材料採用法律要求的年齡限制
  - 性招攬
  - 任何其他犯罪活動
- 從事、促進、煽動或便利對個人或群體的騷擾、虐待、威脅或欺凌
- 從事、促進、煽動或便利在就業、就業福利、信貸、住房、其他經濟福利或其他基本商品和服務的提供方面的歧視或其他非法或有害行為
- 從事未經授權或無執照的任何專業實踐，包括但不限於金融、法律、醫療/健康或相關專業實踐
- 收集、處理、披露、生成或推斷個人的私人或敏感信息，包括個人身份、健康或人口統計信息，除非您已根據適用法律獲得這樣做的權利
- 從事或便利任何侵犯、盜用或以其他方式侵犯任何第三方權利的行為或生成任何內容，包括使用Llama材料的任何產品或服務的輸出或結果
- 創建、生成或便利創建惡意代碼、惡意軟件、計算機病毒或進行任何其他可能禁用、使負擔過重、干擾或損害網站或計算機系統的正常運行、完整性、操作或外觀的行為
- 從事任何行為或便利任何行為，故意規避或移除使用限制或其他安全措施，或啟用Meta禁用的功能
從事、促進、煽動、便利或協助策劃或開展對個人造成死亡或身體傷害風險的活動，包括與以下相關的Llama 3.2的使用：
- 軍事、戰爭、核工業或應用、間諜活動、用於受美國國務院維護的《國際武器貿易條例》（ITAR）或1989年《美國生物武器反恐法》或1997年《化學武器公約實施法》約束的材料或活動
- 槍支和非法武器（包括武器開發）
- 非法藥物和受管制/受控物質
- 關鍵基礎設施、運輸技術或重型機械的操作
- 自我傷害或傷害他人，包括自殺、自殘和飲食失調
- 任何旨在煽動或促進暴力、虐待或對個人造成身體傷害的內容
故意欺騙或誤導他人，包括與以下相關的Llama 3.2的使用：
- 生成、促進或進一步推動欺詐或創建或促進虛假信息
- 生成、促進或進一步推動誹謗性內容，包括創建誹謗性聲明、圖像或其他內容
- 生成、促進或進一步分發垃圾郵件
- 在未經同意、授權或合法權利的情況下冒充他人
- 表示Llama 3.2的使用或輸出是人類生成的
- 生成或便利虛假的在線互動，包括虛假評論和其他虛假在線互動方式
未能向最終用戶適當披露您的AI系統的任何已知危險
與旨在生成非法內容或從事非法或有害行為的第三方工具、模型或軟件進行交互，並/或表示此類工具、模型或軟件的輸出與Meta或Llama 3.2相關