🚀 360VL
360VLはLLama3言語モデルをベースに開発された、業界初のLLama3 - 70B[[🤗Meta - Llama - 3 - 70B - Instruct](https://huggingface.co/meta - llama/Meta - Llama - 3 - 70B - Instruct)]に基づくオープンソースの大規模マルチモーダルモデルです。このモデルは、Llama3言語モデルを適用するだけでなく、グローバルな認識を持つマルチブランチプロジェクターアーキテクチャを設計しており、画像理解能力を向上させています。
Github:https://github.com/360CVGroup/360VL
🚀 クイックスタート
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
from PIL import Image
checkpoint = "qihoo360/360VL-70B"
model = AutoModelForCausalLM.from_pretrained(checkpoint, torch_dtype=torch.float16, device_map='auto', trust_remote_code=True).eval()
tokenizer = AutoTokenizer.from_pretrained(checkpoint, trust_remote_code=True)
vision_tower = model.get_vision_tower()
vision_tower.load_model()
vision_tower.to(device="cuda", dtype=torch.float16)
image_processor = vision_tower.image_processor
tokenizer.pad_token = tokenizer.eos_token
image = Image.open("docs/008.jpg").convert('RGB')
query = "Who is this cartoon character?"
terminators = [
tokenizer.convert_tokens_to_ids("<|eot_id|>",)
]
inputs = model.build_conversation_input_ids(tokenizer, query=query, image=image, image_processor=image_processor)
input_ids = inputs["input_ids"].to(device='cuda', non_blocking=True)
images = inputs["image"].to(dtype=torch.float16, device='cuda', non_blocking=True)
output_ids = model.generate(
input_ids,
images=images,
do_sample=False,
eos_token_id=terminators,
num_beams=1,
max_new_tokens=512,
use_cache=True)
input_token_len = input_ids.shape[1]
outputs = tokenizer.batch_decode(output_ids[:, input_token_len:], skip_special_tokens=True)[0]
outputs = outputs.strip()
print(outputs)
✨ 主な機能
360VLには以下の機能があります。
- 複数ラウンドのテキストと画像の会話: 360VLはテキストと画像の両方を入力として受け取り、テキスト出力を生成できます。現在は、1枚の画像を使った複数ラウンドのビジュアル質問応答をサポートしています。
- 二言語テキストサポート: 360VLは英語と中国語の両方での会話をサポートしており、画像内のテキスト認識も可能です。
- 強力な画像理解能力: 360VLは画像の分析に優れており、画像から情報を抽出、整理、要約するなどのタスクに効率的です。
- 細かい画像解像度: 360VLは672×672という高解像度の画像理解をサポートしています。
📦 モデルダウンロード
360VLは以下のバージョンをリリースしています。
モデル |
ダウンロード |
360VL - 8B |
[🤗 Hugging Face](https://huggingface.co/qihoo360/360VL - 8B) |
360VL - 70B |
[🤗 Hugging Face](https://huggingface.co/qihoo360/360VL - 70B) |
📊 性能
モデル |
チェックポイント |
MMBT |
MMBD |
MMB - CNT |
MMB - CND |
MMMUV |
MMMUT |
MME |
QWen - VL - Chat |
[🤗LINK](https://huggingface.co/Qwen/Qwen - VL - Chat) |
61.8 |
60.6 |
56.3 |
56.7 |
37 |
32.9 |
1860 |
mPLUG - Owl2 |
[🤖LINK](https://www.modelscope.cn/models/iic/mPLUG - Owl2/summary) |
66.0 |
66.5 |
60.3 |
59.5 |
34.7 |
32.1 |
1786.4 |
CogVLM |
[🤗LINK](https://huggingface.co/THUDM/cogvlm - grounding - generalist - hf) |
65.8 |
63.7 |
55.9 |
53.8 |
37.3 |
30.1 |
1736.6 |
Monkey - Chat |
[🤗LINK](https://huggingface.co/echo840/Monkey - Chat) |
72.4 |
71 |
67.5 |
65.8 |
40.7 |
- |
1887.4 |
MM1 - 7B - Chat |
LINK |
- |
72.3 |
- |
- |
37.0 |
35.6 |
1858.2 |
IDEFICS2 - 8B |
[🤗LINK](https://huggingface.co/HuggingFaceM4/idefics2 - 8b) |
75.7 |
75.3 |
68.6 |
67.3 |
43.0 |
37.7 |
1847.6 |
SVIT - v1.5 - 13B |
[🤗LINK](https://huggingface.co/Isaachhe/svit - v1.5 - 13b - full) |
69.1 |
- |
63.1 |
- |
38.0 |
33.3 |
1889 |
LLaVA - v1.5 - 13B |
[🤗LINK](https://huggingface.co/liuhaotian/llava - v1.5 - 13b) |
69.2 |
69.2 |
65 |
63.6 |
36.4 |
33.6 |
1826.7 |
LLaVA - v1.6 - 13B |
[🤗LINK](https://huggingface.co/liuhaotian/llava - v1.6 - vicuna - 13b) |
70 |
70.7 |
68.5 |
64.3 |
36.2 |
- |
1901 |
Honeybee |
LINK |
73.6 |
74.3 |
- |
- |
36.2 |
- |
1976.5 |
YI - VL - 34B |
[🤗LINK](https://huggingface.co/01 - ai/Yi - VL - 34B) |
72.4 |
71.1 |
70.7 |
71.4 |
45.1 |
41.6 |
2050.2 |
360VL - 8B |
[🤗LINK](https://huggingface.co/qihoo360/360VL - 8B) |
75.3 |
73.7 |
71.1 |
68.6 |
39.7 |
37.1 |
1944.6 |
360VL - 70B |
[🤗LINK](https://huggingface.co/qihoo360/360VL - 70B) |
78.1 |
80.4 |
76.9 |
77.7 |
50.8 |
44.3 |
2012.3 |
📚 詳細情報
モデルタイプ
360VL - 70Bは、マルチモーダル命令追従データでLLMをファインチューニングして学習されたオープンソースチャットボットです。これはトランスフォーマーアーキテクチャに基づく自己回帰型言語モデルです。
ベースLLM: [meta - llama/Meta - Llama - 3 - 70B - Instruct](https://huggingface.co/meta - llama/Meta - Llama - 3 - 70B - Instruct)
モデル学習日
360VL - 70Bは2024年5月に学習されました。
📄 ライセンス
このプロジェクトは、それぞれ独自の元のライセンスに従う特定のデータセットとチェックポイントを利用しています。ユーザーはこれらの元のライセンスのすべての条件に従わなければなりません。
このプロジェクト自体の内容は、Apacheライセンス2.0の下でライセンスされています。
モデルに関する質問やコメントを送る場所:
https://github.com/360CVGroup/360VL
関連プロジェクト
この研究は、これらの素晴らしいオープンソースコードがなければ不可能でした。大きな感謝を申し上げます!