Llava Jp 1.3b V1.1
LLaVA-JP是一个支持日语的多模态视觉语言模型,能够理解和生成关于输入图像的描述和对话。
下载量 90
发布时间 : 4/17/2024
模型简介
该模型结合视觉编码器和文本解码器,支持高分辨率图像输入,专门针对日语视觉语言任务优化。
模型特点
高分辨率支持
通过scaling_on_scales技术支持768x768高分辨率图像输入
日语优化
专门针对日语视觉语言任务进行训练和优化
两阶段训练
先预训练视觉投影器,再进行指令微调
模型能力
图像理解
日语图像描述生成
日语视觉问答
多模态对话
使用案例
辅助技术
视觉辅助
为视障人士提供图像内容描述
内容分析
社交媒体分析
自动分析社交媒体图片内容并生成描述
🚀 LLaVA-JP模型卡片
LLaVA-JP是一款视觉语言模型,能够针对输入图像进行对话交流,为图像理解和交互提供了强大的支持。
🚀 快速开始
1. 下载依赖
git clone https://github.com/tosiyuki/LLaVA-JP.git
2. 推理
import requests
import torch
import transformers
from PIL import Image
from transformers.generation.streamers import TextStreamer
from llava.constants import DEFAULT_IMAGE_TOKEN, IMAGE_TOKEN_INDEX
from llava.conversation import conv_templates, SeparatorStyle
from llava.model.llava_gpt2 import LlavaGpt2ForCausalLM
from llava.train.arguments_dataclass import ModelArguments, DataArguments, TrainingArguments
from llava.train.dataset import tokenizer_image_token
if __name__ == "__main__":
model_path = 'toshi456/llava-jp-1.3b-v1.1'
device = "cuda" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.bfloat16 if device=="cuda" else torch.float32
model = LlavaGpt2ForCausalLM.from_pretrained(
model_path,
low_cpu_mem_usage=True,
use_safetensors=True,
torch_dtype=torch_dtype,
device_map=device,
)
tokenizer = transformers.AutoTokenizer.from_pretrained(
model_path,
model_max_length=1532,
padding_side="right",
use_fast=False,
)
model.eval()
conv_mode = "v1"
conv = conv_templates[conv_mode].copy()
# image pre-process
image_url = "https://huggingface.co/rinna/bilingual-gpt-neox-4b-minigpt4/resolve/main/sample.jpg"
image = Image.open(requests.get(image_url, stream=True).raw).convert('RGB')
image_size = model.get_model().vision_tower.image_processor.size["height"]
if model.get_model().vision_tower.scales is not None:
image_size = model.get_model().vision_tower.image_processor.size["height"] * len(model.get_model().vision_tower.scales)
if device == "cuda":
image_tensor = model.get_model().vision_tower.image_processor(
image,
return_tensors='pt',
size={"height": image_size, "width": image_size}
)['pixel_values'].half().cuda().to(torch_dtype)
else:
image_tensor = model.get_model().vision_tower.image_processor(
image,
return_tensors='pt',
size={"height": image_size, "width": image_size}
)['pixel_values'].to(torch_dtype)
# create prompt
# ユーザー: <image>\n{prompt}
prompt = "猫の隣には何がありますか?"
inp = DEFAULT_IMAGE_TOKEN + '\n' + prompt
conv.append_message(conv.roles[0], inp)
conv.append_message(conv.roles[1], None)
prompt = conv.get_prompt()
input_ids = tokenizer_image_token(
prompt,
tokenizer,
IMAGE_TOKEN_INDEX,
return_tensors='pt'
).unsqueeze(0)
if device == "cuda":
input_ids = input_ids.to(device)
input_ids = input_ids[:, :-1] # </sep>がinputの最後に入るので削除する
stop_str = conv.sep if conv.sep_style != SeparatorStyle.TWO else conv.sep2
keywords = [stop_str]
streamer = TextStreamer(tokenizer, skip_prompt=True, timeout=20.0)
# predict
with torch.inference_mode():
model.generate(
inputs=input_ids,
images=image_tensor,
do_sample=True,
temperature=0.1,
top_p=1.0,
max_new_tokens=256,
streamer=streamer,
use_cache=True,
)
"""猫の隣にはノートパソコンがあります。"""
✨ 主要特性
LLaVA-JP是一款视觉语言模型,可对输入图像进行对话。该模型是一个LVLM模型,使用google/siglip-so400m-patch14-384作为图像编码器,llm-jp/llm-jp-1.3b-v1.0作为文本解码器。通过scaling_on_scales方法支持输入768 x 768的高分辨率图像。
📚 详细文档
模型详情
属性 | 详情 |
---|---|
模型类型 | LLaVA-JP是一款视觉语言模型,可对输入图像进行对话。该模型是一个LVLM模型,使用google/siglip-so400m-patch14-384作为图像编码器,llm-jp/llm-jp-1.3b-v1.0作为文本解码器。通过scaling_on_scales方法支持输入768 x 768的高分辨率图像。 |
训练情况 | 该模型最初使用LLaVA - Pretrain - JA通过视觉投影仪进行训练。在第二阶段,使用LLaVA - v1.5 - Instruct - 620K - JA进行微调。更多信息资源:https://github.com/tosiyuki/LLaVA-JP/tree/main |
与其他VLM模型的比较
模型 | JA - VG - VQA - 500 (ROUGE - L) |
JA - VLM - Bench - In - the - Wild (ROUGE - L) |
Heron - Bench(Detail) | Heron - Bench(Conv) | Heron - Bench(Complex) | Heron - Bench(Average) |
---|---|---|---|---|---|---|
Japanese Stable VLM | - | 40.50 | 25.15 | 51.23 | 37.84 | 38.07 |
EvoVLM - JP - v1 - 7B | 19.70 | 51.25 | 50.31 | 44.42 | 40.47 | 45.07 |
Heron BLIP Japanese StableLM Base 7B llava - 620k | 14.51 | 33.26 | 49.09 | 41.51 | 45.72 | 45.44 |
Heron GIT Japanese StableLM Base 7B | 15.18 | 37.82 | 42.77 | 54.20 | 43.53 | 46.83 |
llava - jp - 1.3b - v1.0 - 620k | 12.69 | 44.58 | 51.21 | 41.05 | 45.95 | 44.84 |
llava - jp - 1.3b - v1.1 | 13.33 | 44.40 | 50.00 | 51.83 | 48.98 | 50.39 |
训练数据集
第一阶段预训练
第二阶段微调
致谢
📄 许可证
cc-by-nc-4.0
Clip Vit Large Patch14
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习将图像和文本映射到共享的嵌入空间,支持零样本图像分类
图像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI开发的多模态模型,能够理解图像和文本之间的关系,支持零样本图像分类任务。
图像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI开发的多模态模型,通过对比学习将图像和文本映射到共享的嵌入空间,实现零样本图像分类能力。
图像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一个先进的视觉-语言预训练模型,擅长图像描述生成任务,支持条件式和非条件式文本生成。
图像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成任务,支持条件式和无条件式图像描述生成。
图像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
图像生成文本
Transformers 英语

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款开源多模态聊天机器人,基于 LLaMA/Vicuna 微调,支持图文交互。
图像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
这是一个基于ViT和GPT2架构的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一个视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本的生成任务。
图像生成文本
Transformers 英语

B
Salesforce
867.78k
359
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98