CogVLMオープンソースビジュアル言語モデル - 無料でデプロイ可能、複数のクロスモーダルベンチマークテストでSOTA性能

ホーム

Cogvlm Grounding Generalist Hf

THUDMによって開発

CogVLMは強力なオープンソースの視覚言語モデル（VLM）で、複数のクロスモーダルベンチマークテストでSOTA性能を達成しています。

画像生成テキスト

Transformers

#視覚言語大規模モデル #マルチモーダルベンチマークSOTA #視覚エキスパートモジュール

ダウンロード数 702

リリース時間 : 11/17/2023

モデル概要

CogVLMは視覚言語モデルで、画像に関連するテキスト記述を理解し生成することができ、マルチモーダル対話と物体位置特定をサポートします。

モデル特徴

マルチモーダル理解

視覚情報と言語情報を同時に処理し、画像とテキストの深い相互作用を実現できます

高性能

10の古典的なクロスモーダルベンチマークテストでSOTA性能を達成し、一部のタスクでPaLI - X 55Bを上回っています

物体位置特定能力

画像内で言及された物体の座標位置情報を提供できます

オープンソースモデル

コードとモデルウェイトが公開されており、研究やアプリケーションに便利です

モデル能力

画像記述生成

視覚質問応答

マルチモーダル対話

物体検出と位置特定

クロスモーダル理解

使用事例

画像理解

自動画像注釈

画像に詳細な記述テキストを生成します

COCO captioningなどのベンチマークテストで優れた成績を収めています

視覚質問応答

画像内容に関する自然言語の質問に答えます

VQAv2、OKVQAなどのベンチマークテストで2位にランクインしています

人機インタラクション

マルチモーダル対話

画像内容に基づく自然言語対話を行います

複雑な画像関連の対話インタラクションをサポートします

コンピュータビジョン支援

物体位置特定

画像内の物体を識別し座標位置を提供します

物体の境界ボックス座標[[x0,y0,x1,y1]]を出力できます

🚀 CogVLM

CogVLM は強力なオープンソースの視覚言語モデル（VLM）です。CogVLM-17B は 100 億の視覚パラメータと 70 億の言語パラメータを持ち、NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUC といった 10 の古典的なクロスモーダルベンチマークで最先端の性能を達成しています。また、VQAv2、OKVQA、TextVQA、COCO captioning などでは 2 位となり、PaLI-X 55B を上回るか同等の性能を発揮しています。あなたはオンラインのデモを通じて、CogVLM のマルチモーダル対話を体験することができます。

🚀 クイックスタート

import torch
from PIL import Image
from transformers import AutoModelForCausalLM, LlamaTokenizer

tokenizer = LlamaTokenizer.from_pretrained('lmsys/vicuna-7b-v1.5')
model = AutoModelForCausalLM.from_pretrained(
    'THUDM/cogvlm-grounding-generalist-hf',
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True
).to('cuda').eval()

query = 'Can you provide a description of the image and include the coordinates [[x0,y0,x1,y1]] for each mentioned object?'
image = Image.open(requests.get('https://github.com/THUDM/CogVLM/blob/main/examples/4.jpg?raw=true', stream=True).raw).convert('RGB')
inputs = model.build_conversation_input_ids(tokenizer, query=query, images=[image])
inputs = {
    'input_ids': inputs['input_ids'].unsqueeze(0).to('cuda'),
    'token_type_ids': inputs['token_type_ids'].unsqueeze(0).to('cuda'),
    'attention_mask': inputs['attention_mask'].unsqueeze(0).to('cuda'),
    'images': [[inputs['images'][0].to('cuda').to(torch.bfloat16)]],
}
gen_kwargs = {"max_length": 2048, "do_sample": False}

with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs['input_ids'].shape[1]:]
    print(tokenizer.decode(outputs[0]))

📚 ドキュメント

CogVLM モデルは 4 つの基本的なコンポーネントで構成されています。視覚トランスフォーマー（ViT）エンコーダ、MLP アダプタ、事前学習された大規模言語モデル（GPT）、そして視覚エキスパートモジュールです。詳細については論文を参照してください。

📄 ライセンス

このリポジトリ内のコードは Apache-2.0 ライセンスの下でオープンソースとなっています。一方、CogVLM モデルの重みを使用する場合は、モデルライセンスに従う必要があります。

📖 引用

もし私たちの研究が役に立った場合は、以下の論文を引用していただけると幸いです。

@article{wang2023cogvlm,
      title={CogVLM: Visual Expert for Pretrained Language Models}, 
      author={Weihan Wang and Qingsong Lv and Wenmeng Yu and Wenyi Hong and Ji Qi and Yan Wang and Junhui Ji and Zhuoyi Yang and Lei Zhao and Xixuan Song and Jiazheng Xu and Bin Xu and Juanzi Li and Yuxiao Dong and Ming Ding and Jie Tang},
      year={2023},
      eprint={2311.03079},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}