L

Llama 3.2 11B Vision Instruct

由 meta-llama 开发
Llama 3.2 是 Meta 发布的多语言多模态大型语言模型,支持图像文本到文本的转换任务,具备强大的跨模态理解能力。
下载量 784.19k
发布时间 : 9/18/2024

模型简介

Llama 3.2 是一个基于 Transformer 架构的多模态模型,能够处理图像和文本输入,生成详细的文本输出。适用于艺术分析、图表理解和文档问答等多种场景。

模型特点

多模态理解
能够同时处理图像和文本输入,生成连贯且详细的文本输出。
多语言支持
支持包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语在内的多种语言。
艺术与图表分析
能够分析艺术作品的时代特征和风格,以及从图表中提取关键信息。
文档问答
能够从发票等文档中提取关键信息并回答相关问题。

模型能力

图像理解
文本生成
跨模态推理
多语言处理
艺术风格分析
图表数据提取
文档信息提取

使用案例

艺术分析
洛可可艺术分析
分析洛可可艺术作品的风格特征和时代背景。
能够详细描述洛可可时代的艺术特点,包括柔和的色彩、曲线线条和繁复的装饰细节。
图表理解
干旱地区分析
从图表中提取干旱发生的地区信息。
能够准确识别并列出2016年遭受严重干旱的地区,如东部和南部非洲。
文档问答
发票日期计算
从发票中提取日期信息并计算时间差。
能够准确计算发票日期与到期日之间的天数差,如15天。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase