L

Llama 3.2 11B Vision Instruct

由meta-llama開發
Llama 3.2 是 Meta 發佈的多語言多模態大型語言模型,支持圖像文本到文本的轉換任務,具備強大的跨模態理解能力。
下載量 784.19k
發布時間 : 9/18/2024

模型概述

Llama 3.2 是一個基於 Transformer 架構的多模態模型,能夠處理圖像和文本輸入,生成詳細的文本輸出。適用於藝術分析、圖表理解和文檔問答等多種場景。

模型特點

多模態理解
能夠同時處理圖像和文本輸入,生成連貫且詳細的文本輸出。
多語言支持
支持包括英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語在內的多種語言。
藝術與圖表分析
能夠分析藝術作品的時代特徵和風格,以及從圖表中提取關鍵信息。
文檔問答
能夠從發票等文檔中提取關鍵信息並回答相關問題。

模型能力

圖像理解
文本生成
跨模態推理
多語言處理
藝術風格分析
圖表數據提取
文檔信息提取

使用案例

藝術分析
洛可可藝術分析
分析洛可可藝術作品的風格特徵和時代背景。
能夠詳細描述洛可可時代的藝術特點,包括柔和的色彩、曲線線條和繁複的裝飾細節。
圖表理解
乾旱地區分析
從圖表中提取乾旱發生的地區信息。
能夠準確識別並列出2016年遭受嚴重乾旱的地區,如東部和南部非洲。
文檔問答
發票日期計算
從發票中提取日期信息並計算時間差。
能夠準確計算發票日期與到期日之間的天數差,如15天。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase