360VL - 70Bオープンソースマルチモーダルモデル - 無料で利用可能、画像理解と双语文本処理を実現

ホーム

360VL 70B

qihoo360によって開発

360VLはLLama3言語モデルを基に開発されたオープンソースの大規模マルチモーダルモデルで、強力な画像理解能力と二言語テキストサポートを備えています。

テキスト生成画像

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #マルチモーダル対話 #高解像度画像理解 #中英二言語対応

ダウンロード数 103

リリース時間 : 5/16/2024

モデル概要

360VLは業界初のLLama3-70Bベースのオープンソース大規模マルチモーダルモデルで、グローバル知覚型マルチブランチプロジェクターアーキテクチャを採用し、マルチターン画像テキスト対話と細粒度画像解析をサポートします。

モデル特徴

マルチターン画像テキスト対話

テキストと画像を入力としてテキスト出力を生成でき、単一画像でのマルチターン視覚質問応答を実現します。

二言語テキストサポート

中英二言語での対話をサポートし、画像内の文字認識も可能です。

強力な画像理解

視覚コンテンツの分析に優れ、画像情報の抽出、整理、要約などのタスクを効率的に遂行できます。

細粒度画像解析

672×672のより高解像度の画像理解をサポートします。

モデル能力

視覚質問応答

画像内容分析

中英テキスト生成

画像情報抽出

マルチターン対話

使用事例

視覚質問応答

画像内容質問応答

ユーザーが画像をアップロードして質問し、モデルが画像内容に関する質問に回答します。

画像内のオブジェクト、シーン、文字情報を正確に識別できます。

画像分析

画像情報抽出

画像からキー情報を抽出して要約します。

画像情報の抽出と整理を効率的に遂行できます。

🚀 360VL

360VLはLLama3言語モデルをベースに開発された、業界初のLLama3 - 70B[[🤗Meta - Llama - 3 - 70B - Instruct](https://huggingface.co/meta - llama/Meta - Llama - 3 - 70B - Instruct)]に基づくオープンソースの大規模マルチモーダルモデルです。このモデルは、Llama3言語モデルを適用するだけでなく、グローバルな認識を持つマルチブランチプロジェクターアーキテクチャを設計しており、画像理解能力を向上させています。

Github:https://github.com/360CVGroup/360VL

🚀 クイックスタート

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
from PIL import Image

checkpoint = "qihoo360/360VL-70B"

model = AutoModelForCausalLM.from_pretrained(checkpoint, torch_dtype=torch.float16, device_map='auto', trust_remote_code=True).eval()
tokenizer = AutoTokenizer.from_pretrained(checkpoint, trust_remote_code=True)
vision_tower = model.get_vision_tower()
vision_tower.load_model()
vision_tower.to(device="cuda", dtype=torch.float16)
image_processor = vision_tower.image_processor
tokenizer.pad_token = tokenizer.eos_token


image = Image.open("docs/008.jpg").convert('RGB')
query = "Who is this cartoon character?"
terminators = [
    tokenizer.convert_tokens_to_ids("<|eot_id|>",)
]

inputs = model.build_conversation_input_ids(tokenizer, query=query, image=image, image_processor=image_processor)

input_ids = inputs["input_ids"].to(device='cuda', non_blocking=True)
images = inputs["image"].to(dtype=torch.float16, device='cuda', non_blocking=True)

output_ids = model.generate(
    input_ids,
    images=images,
    do_sample=False,
    eos_token_id=terminators,
    num_beams=1,
    max_new_tokens=512,
    use_cache=True)

input_token_len = input_ids.shape[1]
outputs = tokenizer.batch_decode(output_ids[:, input_token_len:], skip_special_tokens=True)[0]
outputs = outputs.strip()
print(outputs)

✨ 主な機能

360VLには以下の機能があります。

複数ラウンドのテキストと画像の会話: 360VLはテキストと画像の両方を入力として受け取り、テキスト出力を生成できます。現在は、1枚の画像を使った複数ラウンドのビジュアル質問応答をサポートしています。
二言語テキストサポート: 360VLは英語と中国語の両方での会話をサポートしており、画像内のテキスト認識も可能です。
強力な画像理解能力: 360VLは画像の分析に優れており、画像から情報を抽出、整理、要約するなどのタスクに効率的です。
細かい画像解像度: 360VLは672×672という高解像度の画像理解をサポートしています。

📦 モデルダウンロード

360VLは以下のバージョンをリリースしています。

モデル	ダウンロード
360VL - 8B	[🤗 Hugging Face](https://huggingface.co/qihoo360/360VL - 8B)
360VL - 70B	[🤗 Hugging Face](https://huggingface.co/qihoo360/360VL - 70B)

📊 性能

モデル	チェックポイント	MMB_T	MMB_D	MMB - CN_T	MMB - CN_D	MMMU_V	MMMU_T	MME
QWen - VL - Chat	[🤗LINK](https://huggingface.co/Qwen/Qwen - VL - Chat)	61.8	60.6	56.3	56.7	37	32.9	1860
mPLUG - Owl2	[🤖LINK](https://www.modelscope.cn/models/iic/mPLUG - Owl2/summary)	66.0	66.5	60.3	59.5	34.7	32.1	1786.4
CogVLM	[🤗LINK](https://huggingface.co/THUDM/cogvlm - grounding - generalist - hf)	65.8	63.7	55.9	53.8	37.3	30.1	1736.6
Monkey - Chat	[🤗LINK](https://huggingface.co/echo840/Monkey - Chat)	72.4	71	67.5	65.8	40.7	-	1887.4
MM1 - 7B - Chat	LINK	-	72.3	-	-	37.0	35.6	1858.2
IDEFICS2 - 8B	[🤗LINK](https://huggingface.co/HuggingFaceM4/idefics2 - 8b)	75.7	75.3	68.6	67.3	43.0	37.7	1847.6
SVIT - v1.5 - 13B	[🤗LINK](https://huggingface.co/Isaachhe/svit - v1.5 - 13b - full)	69.1	-	63.1	-	38.0	33.3	1889
LLaVA - v1.5 - 13B	[🤗LINK](https://huggingface.co/liuhaotian/llava - v1.5 - 13b)	69.2	69.2	65	63.6	36.4	33.6	1826.7
LLaVA - v1.6 - 13B	[🤗LINK](https://huggingface.co/liuhaotian/llava - v1.6 - vicuna - 13b)	70	70.7	68.5	64.3	36.2	-	1901
Honeybee	LINK	73.6	74.3	-	-	36.2	-	1976.5
YI - VL - 34B	[🤗LINK](https://huggingface.co/01 - ai/Yi - VL - 34B)	72.4	71.1	70.7	71.4	45.1	41.6	2050.2
360VL - 8B	[🤗LINK](https://huggingface.co/qihoo360/360VL - 8B)	75.3	73.7	71.1	68.6	39.7	37.1	1944.6
360VL - 70B	[🤗LINK](https://huggingface.co/qihoo360/360VL - 70B)	78.1	80.4	76.9	77.7	50.8	44.3	2012.3

📚 詳細情報

モデルタイプ

360VL - 70Bは、マルチモーダル命令追従データでLLMをファインチューニングして学習されたオープンソースチャットボットです。これはトランスフォーマーアーキテクチャに基づく自己回帰型言語モデルです。ベースLLM: [meta - llama/Meta - Llama - 3 - 70B - Instruct](https://huggingface.co/meta - llama/Meta - Llama - 3 - 70B - Instruct)

モデル学習日

360VL - 70Bは2024年5月に学習されました。

📄 ライセンス

このプロジェクトは、それぞれ独自の元のライセンスに従う特定のデータセットとチェックポイントを利用しています。ユーザーはこれらの元のライセンスのすべての条件に従わなければなりません。このプロジェクト自体の内容は、Apacheライセンス2.0の下でライセンスされています。

モデルに関する質問やコメントを送る場所: https://github.com/360CVGroup/360VL