GLM-Edge-V-5B开源多模态模型 - 支持图文本输入，执行理解与生成任务

首页

Glm Edge V 5b

由 THUDM 开发

GLM-Edge-V-5B是一个50亿参数的多模态模型，支持图像和文本输入，能够执行图像理解和文本生成任务。

图像生成文本

Safetensors

开源协议:其他 #图像文本描述 #多模态对话 #中文优化

下载量 4,357

发布时间 : 11/24/2024

模型简介

该模型是一个基于GLM架构的多模态模型，能够处理图像和文本输入，生成相关的文本输出。适用于图像描述、视觉问答等任务。

模型特点

多模态处理能力

能够同时处理图像和文本输入，生成相关的文本输出。

大模型架构

基于GLM架构，拥有50亿参数，具备强大的理解和生成能力。

中文支持

针对中文场景优化，能够更好地理解和生成中文文本。

模型能力

图像理解

文本生成

图像描述

视觉问答

使用案例

图像理解

图像描述

输入一张图片，模型能够生成描述图片内容的文本。

生成准确、流畅的图片描述文本。

视觉问答

输入一张图片和相关问题，模型能够生成回答。

生成与图片内容相关的准确回答。

属性	详情
模型类型	image-text-to-text
训练框架	Pytorch
许可证	other（glm-4）
许可证链接	LICENSE

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库

Glm Edge V 5b

模型简介

模型特点

模型能力

使用案例

🚀 GLM-Edge-V-5B

🚀 快速开始

✨ 主要特性

📦 安装指南

💻 使用示例

基础用法

📄 许可证

信息表格