tinyllava-1.1b-v0.1开源视觉问答模型 - 轻量级设计实现图像问答功能

首页

Tinyllava 1.1b V0.1

由 0xAmey 开发

基于TinyLlama-1.1B的轻量级视觉问答模型，通过BakLlava代码库训练而成

文本生成图像

Transformers

开源协议:Apache-2.0 #轻量级视觉问答 #多模态对话 #小模型高效推理

下载量 16

发布时间 : 11/1/2023

模型简介

这是一个结合视觉与语言理解的多模态模型，能够根据图片内容回答相关问题

模型特点

轻量级架构

基于1.1B参数的TinyLlama，适合资源有限的环境

多模态理解

同时处理视觉和语言信息，实现图片内容理解

开源许可

采用Apache-2.0许可，允许商业和研究使用

模型能力

图像内容理解

视觉问答

多模态推理

使用案例

内容理解

图片描述生成

根据图片内容生成文字描述

示例显示能准确识别动漫和AI生成图片内容

教育辅助

视觉学习助手

帮助学生理解教材中的图片内容

🚀 视觉问答项目

本项目是一个视觉问答应用，基于特定模型训练，可根据图像回答相关问题，为图像理解和交互提供了便捷的方式。

🚀 快速开始

本项目使用 TinyLlama 作为基础模型，并借助 BakLlava 仓库进行训练。

✨ 主要特性

基于强大的基础模型进行训练，具备较好的视觉问答能力。
支持在不同设备上运行，可通过Gradio网页界面进行交互。
可以同时启动多个模型工作器，方便对比不同模型的效果。

📦 安装指南

如果您不使用Linux系统，请不要继续操作，请参考 macOS 和 Windows 的安装说明。

克隆仓库并进入目录

git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA

安装必要包

conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip  # 启用PEP 660支持
pip install -e .

安装训练所需的额外包

pip install -e ".[train]"
pip install flash-attn --no-build-isolation

升级到最新代码库

git pull
pip install -e .

启动控制器

python -m llava.serve.controller --host 0.0.0.0 --port 10000

启动Gradio网页服务器

python -m llava.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload

此时，您已经启动了Gradio网页界面。现在，您可以使用屏幕上打印的URL打开网页界面。您可能会注意到模型列表中没有模型，不用担心，因为我们还没有启动任何模型工作器。当您启动模型工作器时，列表会自动更新。

启动模型工作器

这是实际在GPU上执行推理的“工作器”。每个工作器负责 --model-path 中指定的单个模型。

python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path ameywtf/tinyllava-1.1b-v0.1

等待进程完成模型加载，直到您看到 "Uvicorn running on ..."。现在，刷新您的Gradio网页界面，您将在模型列表中看到刚刚启动的模型。

您可以根据需要启动任意数量的工作器，并在同一个Gradio界面中比较不同的模型检查点。请保持 --controller 相同，并为每个工作器将 --port 和 --worker 修改为不同的端口号。

python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port <不同于40000，例如40001> --worker http://localhost:<相应修改，例如40001> --model-path <ckpt2>

如果您使用的是带有M1或M2芯片的苹果设备，可以使用 --device 标志指定mps设备：--device mps。