Llava Jp 1.3b V1.1
LLaVA-JP是一個支持日語的多模態視覺語言模型,能夠理解和生成關於輸入圖像的描述和對話。
下載量 90
發布時間 : 4/17/2024
模型概述
該模型結合視覺編碼器和文本解碼器,支持高分辨率圖像輸入,專門針對日語視覺語言任務優化。
模型特點
高分辨率支持
通過scaling_on_scales技術支持768x768高分辨率圖像輸入
日語優化
專門針對日語視覺語言任務進行訓練和優化
兩階段訓練
先預訓練視覺投影器,再進行指令微調
模型能力
圖像理解
日語圖像描述生成
日語視覺問答
多模態對話
使用案例
輔助技術
視覺輔助
為視障人士提供圖像內容描述
內容分析
社交媒體分析
自動分析社交媒體圖片內容並生成描述
🚀 LLaVA-JP模型卡片
LLaVA-JP是一款視覺語言模型,能夠針對輸入圖像進行對話交流,為圖像理解和交互提供了強大的支持。
🚀 快速開始
1. 下載依賴
git clone https://github.com/tosiyuki/LLaVA-JP.git
2. 推理
import requests
import torch
import transformers
from PIL import Image
from transformers.generation.streamers import TextStreamer
from llava.constants import DEFAULT_IMAGE_TOKEN, IMAGE_TOKEN_INDEX
from llava.conversation import conv_templates, SeparatorStyle
from llava.model.llava_gpt2 import LlavaGpt2ForCausalLM
from llava.train.arguments_dataclass import ModelArguments, DataArguments, TrainingArguments
from llava.train.dataset import tokenizer_image_token
if __name__ == "__main__":
model_path = 'toshi456/llava-jp-1.3b-v1.1'
device = "cuda" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.bfloat16 if device=="cuda" else torch.float32
model = LlavaGpt2ForCausalLM.from_pretrained(
model_path,
low_cpu_mem_usage=True,
use_safetensors=True,
torch_dtype=torch_dtype,
device_map=device,
)
tokenizer = transformers.AutoTokenizer.from_pretrained(
model_path,
model_max_length=1532,
padding_side="right",
use_fast=False,
)
model.eval()
conv_mode = "v1"
conv = conv_templates[conv_mode].copy()
# image pre-process
image_url = "https://huggingface.co/rinna/bilingual-gpt-neox-4b-minigpt4/resolve/main/sample.jpg"
image = Image.open(requests.get(image_url, stream=True).raw).convert('RGB')
image_size = model.get_model().vision_tower.image_processor.size["height"]
if model.get_model().vision_tower.scales is not None:
image_size = model.get_model().vision_tower.image_processor.size["height"] * len(model.get_model().vision_tower.scales)
if device == "cuda":
image_tensor = model.get_model().vision_tower.image_processor(
image,
return_tensors='pt',
size={"height": image_size, "width": image_size}
)['pixel_values'].half().cuda().to(torch_dtype)
else:
image_tensor = model.get_model().vision_tower.image_processor(
image,
return_tensors='pt',
size={"height": image_size, "width": image_size}
)['pixel_values'].to(torch_dtype)
# create prompt
# ユーザー: <image>\n{prompt}
prompt = "貓の隣には何がありますか?"
inp = DEFAULT_IMAGE_TOKEN + '\n' + prompt
conv.append_message(conv.roles[0], inp)
conv.append_message(conv.roles[1], None)
prompt = conv.get_prompt()
input_ids = tokenizer_image_token(
prompt,
tokenizer,
IMAGE_TOKEN_INDEX,
return_tensors='pt'
).unsqueeze(0)
if device == "cuda":
input_ids = input_ids.to(device)
input_ids = input_ids[:, :-1] # </sep>がinputの最後に入るので削除する
stop_str = conv.sep if conv.sep_style != SeparatorStyle.TWO else conv.sep2
keywords = [stop_str]
streamer = TextStreamer(tokenizer, skip_prompt=True, timeout=20.0)
# predict
with torch.inference_mode():
model.generate(
inputs=input_ids,
images=image_tensor,
do_sample=True,
temperature=0.1,
top_p=1.0,
max_new_tokens=256,
streamer=streamer,
use_cache=True,
)
"""貓の隣にはノートパソコンがあります。"""
✨ 主要特性
LLaVA-JP是一款視覺語言模型,可對輸入圖像進行對話。該模型是一個LVLM模型,使用google/siglip-so400m-patch14-384作為圖像編碼器,llm-jp/llm-jp-1.3b-v1.0作為文本解碼器。通過scaling_on_scales方法支持輸入768 x 768的高分辨率圖像。
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
模型類型 | LLaVA-JP是一款視覺語言模型,可對輸入圖像進行對話。該模型是一個LVLM模型,使用google/siglip-so400m-patch14-384作為圖像編碼器,llm-jp/llm-jp-1.3b-v1.0作為文本解碼器。通過scaling_on_scales方法支持輸入768 x 768的高分辨率圖像。 |
訓練情況 | 該模型最初使用LLaVA - Pretrain - JA通過視覺投影儀進行訓練。在第二階段,使用LLaVA - v1.5 - Instruct - 620K - JA進行微調。更多信息資源:https://github.com/tosiyuki/LLaVA-JP/tree/main |
與其他VLM模型的比較
模型 | JA - VG - VQA - 500 (ROUGE - L) |
JA - VLM - Bench - In - the - Wild (ROUGE - L) |
Heron - Bench(Detail) | Heron - Bench(Conv) | Heron - Bench(Complex) | Heron - Bench(Average) |
---|---|---|---|---|---|---|
Japanese Stable VLM | - | 40.50 | 25.15 | 51.23 | 37.84 | 38.07 |
EvoVLM - JP - v1 - 7B | 19.70 | 51.25 | 50.31 | 44.42 | 40.47 | 45.07 |
Heron BLIP Japanese StableLM Base 7B llava - 620k | 14.51 | 33.26 | 49.09 | 41.51 | 45.72 | 45.44 |
Heron GIT Japanese StableLM Base 7B | 15.18 | 37.82 | 42.77 | 54.20 | 43.53 | 46.83 |
llava - jp - 1.3b - v1.0 - 620k | 12.69 | 44.58 | 51.21 | 41.05 | 45.95 | 44.84 |
llava - jp - 1.3b - v1.1 | 13.33 | 44.40 | 50.00 | 51.83 | 48.98 | 50.39 |
訓練數據集
第一階段預訓練
第二階段微調
致謝
📄 許可證
cc-by-nc-4.0
Clip Vit Large Patch14
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習將圖像和文本映射到共享的嵌入空間,支持零樣本圖像分類
圖像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI開發的多模態模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類任務。
圖像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
圖像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI開發的多模態模型,通過對比學習將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類能力。
圖像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一個先進的視覺-語言預訓練模型,擅長圖像描述生成任務,支持條件式和非條件式文本生成。
圖像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成任務,支持條件式和無條件式圖像描述生成。
圖像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一個基於Open X-Embodiment數據集訓練的開源視覺-語言-動作模型,能夠根據語言指令和攝像頭圖像生成機器人動作。
圖像生成文本
Transformers 英語

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款開源多模態聊天機器人,基於 LLaMA/Vicuna 微調,支持圖文交互。
圖像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一個視覺語言模型,結合了圖像編碼器和大型語言模型,用於圖像到文本的生成任務。
圖像生成文本
Transformers 英語

B
Salesforce
867.78k
359
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98