Llama3-Chat_Vector-kor_llava-v02開源多模態模型 - 支持韓語對話與圖像理解

首頁

Llama3 Chat Vector Kor Llava V02

由nebchi開發

這是一個基於Llama3架構的韓語多模態模型，支持圖像理解和韓語對話。

圖像生成文本

Transformers

支持多種語言#韓英雙語視覺問答 #多模態圖像理解 #即時流式輸出

下載量 27

發布時間 : 8/26/2024

模型概述

該模型是一個結合視覺和語言能力的多模態模型，能夠理解圖像內容並用韓語進行對話。基於Llama3架構，參考了Beomi和Toshi456的韓語和日語LLAVA模型實現。

模型特點

多模態能力

能夠同時處理圖像和文本輸入，實現視覺-語言交互

韓語優化

特別針對韓語對話進行了優化和訓練

基於Llama3架構

利用強大的Llama3語言模型作為基礎

模型能力

圖像理解

韓語對話

視覺問答

圖像描述生成

使用案例

視覺輔助

圖像描述生成

為視障人士生成圖像的文字描述

能準確描述圖像中的主要內容和場景

教育

語言學習輔助

幫助韓語學習者通過圖像進行語言練習

🚀 Llama3-Chat_Vector-kor_llava

本項目參考了由Beomi創建的韓語聊天向量LLAVA模型，以及Toshi456創建的日語聊天向量LLAVA模型，實現了一個韓語LLAVA模型。

參考模型：

🚀 快速開始

在GPU上運行模型

import requests
from PIL import Image

import torch
from transformers import AutoProcessor, LlavaForConditionalGeneration, TextStreamer

model_id = "nebchi/Llama3-Chat_Vector-kor_llava"

model = LlavaForConditionalGeneration.from_pretrained(
    model_id, 
    torch_dtype='auto', 
    device_map='auto',
    revision='a38aac3', 
)

processor = AutoProcessor.from_pretrained(model_id)

tokenizer = processor.tokenizer
terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
streamer = TextStreamer(tokenizer)

prompt = ("<|start_header_id|>user<|end_header_id|>\n\n<image>\n이 이미지에 대해서 설명해주세요.<|eot_id|>"
          "<|start_header_id|>assistant<|end_header_id|>\n\n이 이미지에는")
image_file = "https://search.pstatic.net/common/?src=http%3A%2F%2Fimgnews.naver.net%2Fimage%2F5582%2F2018%2F04%2F20%2F0000001323_001_20180420094641826.jpg&type=sc960_832"

raw_image = Image.open(requests.get(image_file, stream=True).raw)
inputs = processor(prompt, raw_image, return_tensors='pt').to(0, torch.float16)

output = model.generate(
    **inputs,
    max_new_tokens=512,
    do_sample=True,  
    eos_token_id=terminators,
    no_repeat_ngram_size=3, 
    temperature=0.7,  
    top_p=0.9,  
    streamer=streamer
)
print(processor.decode(output[0][2:], skip_special_tokens=False))

運行結果

이 이미지에는 도시의 모습이 잘 보여집니다. 도시 내부에는 여러 건물과 건물들이 있고, 도시를 연결하는 도로와 교통 시스템이 잘 발달되어 있습니다. 이 도시의 특징은 높고 광범위한 건물들과 교통망을 갖춘 것이 좋습니다.

📄 許可證

本項目採用CC BY-NC-SA 4.0許可證。

📚 引用

@misc {Llama3-Chat_Vector-kor_llava,
	author       = { {nebchi} },
	title        = { Llama3-Chat_Vector-kor_llava },
	year         = 2024,
	url          = { https://huggingface.co/nebchi/Llama3-Chat_Vector-kor_llava },
	publisher    = { Hugging Face }
}