🚀 vit_intern300m_patch14_448.ogvl_dist
このモデルはInternViTの画像特徴モデルです。論文の著者により、InternViT - 6B から蒸留を用いて、様々な画像テキストデータで事前学習されています。モデルの重みは、OpenGVLab/InternViT - 300M - 448px から timm
のvit形式に変換されています。なお、このvitは特徴/ヘッドの前に最終的な正規化が行われていません。
🚀 クイックスタート
このモデルは画像分類や特徴抽出に使用できます。以下のセクションで具体的な使用方法を説明します。
✨ 主な機能
📚 ドキュメント
モデルの詳細
属性 |
详情 |
モデルタイプ |
画像分類 / 特徴バックボーン |
モデル統計情報 |
パラメータ (M): 304.0 GMACs: 362.0 アクティベーション (M): 656.4 画像サイズ: 448 x 448 |
論文 |
InternVL2: Better than the Best: https://internvl.github.io/blog/2024 - 07 - 02 - InternVL - 2.0/ InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual - Linguistic Tasks: https://arxiv.org/abs/2312.14238 |
オリジナル |
https://github.com/OpenGVLab/InternVL |
データセット |
LAION - en LAION - zh COYO GRIT COCO TextCaps Objects365 OpenImages All - Seeing Wukong - OCR LaionCOCO - OCR other - OCR |
💻 使用例
基本的な使用法
画像分類
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('vit_intern300m_patch14_448.ogvl_dist', pretrained=True)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
特徴マップ抽出
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'vit_intern300m_patch14_448.ogvl_dist',
pretrained=True,
features_only=True,
)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
for o in output:
print(o.shape)
画像埋め込み
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'vit_intern300m_patch14_448.ogvl_dist',
pretrained=True,
num_classes=0,
)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
output = model.forward_features(transforms(img).unsqueeze(0))
output = model.forward_head(output, pre_logits=True)
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
引用
@article{chen2023internvl,
title={InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks},
author={Chen, Zhe and Wu, Jiannan and Wang, Wenhai and Su, Weijie and Chen, Guo and Xing, Sen and Zhong, Muyan and Zhang, Qinglong and Zhu, Xizhou and Lu, Lewei and Li, Bin and Luo, Ping and Lu, Tong and Qiao, Yu and Dai, Jifeng},
journal={arXiv preprint arXiv:2312.14238},
year={2023}
}
@article{chen2023internvl,
title={InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks},
author={Chen, Zhe and Wu, Jiannan and Wang, Wenhai and Su, Weijie and Chen, Guo and Xing, Sen and Zhong, Muyan and Zhang, Qinglong and Zhu, Xizhou and Lu, Lewei and Li, Bin and Luo, Ping and Lu, Tong and Qiao, Yu and Dai, Jifeng},
journal={arXiv preprint arXiv:2312.14238},
year={2023}
}