# 高解像度画像処理

Kimi VL A3B Thinking 2506
MIT
Kimi-VL-A3B-Thinking-2506はKimi-VL-A3B-Thinkingのアップグレード版で、マルチモーダル推論、視覚認知と理解、ビデオシーン処理などの分野で著しい向上が見られ、より高解像度の画像をサポートし、より少ないトークンを消費しながらよりスマートな思考を実現します。
画像生成テキスト Transformers
K
moonshotai
515
67
Deepeyes 7B
Apache-2.0
DeepEyesは、強化学習によって「画像を用いた思考」を促す視覚言語モデルで、視覚情報を直接推論チェーンに組み込むことができ、画像テキスト処理タスクで優れた性能を発揮します。
テキスト生成画像 Transformers 英語
D
ChenShawn
383
2
Unime LLaVA OneVision 7B
MIT
UniMEはマルチモーダル大規模モデルに基づく汎用埋め込み学習フレームワークで、テキスト識別知識蒸留とハードネガティブサンプル増強の指示チューニング戦略により、マルチモーダル埋め込み能力を大幅に向上させています。
マルチモーダルアライメント Transformers 英語
U
DeepGlint-AI
376
2
Webssl Dino2b Heavy2b 224
20億パラメータの自己教師あり視覚Transformerモデル、厳選されたウェブ画像データでトレーニングされ、特に図表とテキスト理解能力を最適化
画像分類 Transformers
W
facebook
24
0
Unime LLaVA 1.6 7B
MIT
UniMEはマルチモーダル大規模モデルに基づく汎用埋め込み学習モデルで、336×336の画像解像度でトレーニングされ、MMEBランキングで1位を獲得しています。
画像生成テキスト Transformers 英語
U
DeepGlint-AI
188
3
PE Core B16 224
Apache-2.0
知覚エンコーダーは、シンプルな視覚-言語学習でトレーニングされた最先端の画像およびビデオ理解エンコーダーで、さまざまな視覚タスクで最先端の性能を実現しています。
テキスト生成画像
P
facebook
9,663
11
Upernet Swin Large
MIT
Swin Transformerアーキテクチャに基づくUPerNetセマンティックセグメンテーションモデル、高精度な画像分割タスクに適しています
画像セグメンテーション
U
smp-hub
110
0
Upernet Swin Small
MIT
Swin Transformer小型アーキテクチャをベースにしたUPerNetセマンティックセグメンテーションモデル、ADE20Kなどのシーン解析タスクに適しています
画像セグメンテーション Safetensors
U
smp-hub
100
0
Upernet Swin Tiny
MIT
UPerNetはConvNeXt-Tinyアーキテクチャをベースにしたセマンティックセグメンテーションモデルで、画像分割タスクに適しています。
画像セグメンテーション Safetensors
U
smp-hub
191
0
Style 250412.vit Base Patch16 Siglip 384.v2 Webli
Vision Transformerアーキテクチャに基づく視覚モデルで、SigLIP(Sigmoid Loss for Language-Image Pretraining)訓練方法を採用し、画像理解タスクに適しています。
画像分類 Transformers
S
p1atdev
66
0
PE Core L14 336
Apache-2.0
Metaが開発した大規模視覚エンコーダモデル。コントラスト事前学習と合成ビデオデータによる微調整を経て、様々な視覚タスクで最先端の性能を達成
テキスト生成画像
P
facebook
11.52k
34
Segformer B5 Finetuned Coralscapes 1024 1024
Apache-2.0
サンゴ礁セマンティックセグメンテーションタスク向けに最適化されたSegFormerモデル、1024x1024解像度でCoralscapesデータセットをファインチューニング
画像セグメンテーション Transformers
S
EPFL-ECEO
821
0
Segformer B2 Finetuned Coralscapes 1024 1024
Apache-2.0
これはSegFormerアーキテクチャに基づくセマンティックセグメンテーションモデルで、サンゴ礁生態系の画像セグメンテーションタスクに特化して最適化され、Coralscapesデータセットでファインチューニングされています。
画像セグメンテーション Transformers
S
EPFL-ECEO
139
0
Aimv2 3b Patch14 224.apple Pt
AIM-v2は効率的な画像エンコーダーモデルで、timmフレームワークと互換性があり、コンピュータビジョンタスクに適しています。
画像分類 Transformers
A
timm
50
0
Eva02 Large Patch14 Clip 224.merged2b
MIT
EVA CLIPモデルはOpenCLIPとtimmモデルの重みに基づく視覚言語モデルで、ゼロショット画像分類などのタスクをサポートします。
画像分類
E
timm
165
0
Vit Huge Patch14 Clip 378.dfn5b
その他
DFN5B-CLIPの視覚エンコーダ部分、ViT-Hugeアーキテクチャに基づき、378x378解像度の画像で訓練されたCLIPモデル
画像分類 Transformers
V
timm
461
0
Vit So400m Patch14 Siglip Gap 896.pali2 10b Pt
Apache-2.0
SigLIP画像エンコーダーに基づく視覚モデルで、グローバル平均プーリングを備えており、PaliGemma2モデルの一部です
テキスト生成画像 Transformers
V
timm
57
1
Vit So400m Patch14 Siglip Gap 448.pali Mix
Apache-2.0
SigLIP画像エンコーダーに基づく視覚言語モデルで、グローバル平均プーリング処理を採用し、マルチモーダルタスクに適しています。
テキスト生成画像 Transformers
V
timm
15
0
Segformer B3 1024x1024 City 160k
その他
Segformerアーキテクチャに基づくセマンティックセグメンテーションモデルで、Cityscapesデータセット向けに最適化されています
画像セグメンテーション
S
smp-hub
14
0
Segformer B0 1024x1024 City 160k
その他
Segformerアーキテクチャに基づく軽量セマンティックセグメンテーションモデル、Cityscapesデータセットで事前学習済み
画像セグメンテーション
S
smp-hub
269
1
Segformer B2 1024x1024 City 160k
その他
Segformerアーキテクチャに基づくセマンティックセグメンテーションモデルで、Cityscapesデータセット向けに最適化されています
画像セグメンテーション Safetensors
S
smp-hub
651
0
Segformer B1 512x512 Ade 160k
その他
PyTorchベースのSegformerモデル、セマンティックセグメンテーションタスク用、ADE20Kデータセットで事前学習済み
画像セグメンテーション
S
smp-hub
20
0
Mplug Owl3 7B 241101
Apache-2.0
mPLUG-Owl3は先進的なマルチモーダル大規模言語モデルで、長い画像シーケンスの理解問題に焦点を当て、超注意力メカニズムにより処理速度とシーケンス長のサポートを大幅に向上させます。
テキスト生成画像 英語
M
mPLUG
302
10
Clip Finetuned Csu P14 336 E3l57 L
このモデルはopenai/clip-vit-large-patch14-336をファインチューニングしたバージョンで、主に画像-テキストマッチングタスクに使用されます。
テキスト生成画像 Transformers
C
kevinoli
31
0
Beit Base Patch16 384.in1k Ft Fungitastic 384
BEiTアーキテクチャに基づくデンマーク菌類分類モデルで、菌類の種を識別・分類するために特別に設計されています。
画像分類 PyTorch
B
BVRA
456
1
Idefics2 8b Chatty
Apache-2.0
Idefics2はオープンなマルチモーダルモデルで、任意のシーケンスの画像とテキスト入力を受け取り、テキスト出力を生成できます。このモデルは画像に関する質問に答えたり、視覚的コンテンツを説明したり、複数の画像に基づいてストーリーを作成したり、純粋な言語モデルとして使用したりできます。
画像生成テキスト Transformers 英語
I
HuggingFaceM4
617
94
Llava Jp 1.3b V1.1
LLaVA-JPは日本語をサポートするマルチモーダル視覚言語モデルで、入力画像に関する説明や対話を理解し生成できます。
画像生成テキスト Transformers 日本語
L
toshi456
90
11
Internvit 6B 448px V1 5
MIT
InternViT-6B-448px-V1-5はInternViT-6B-448px-V1-2をファインチューニングした視覚基盤モデルで、強力なロバスト性、OCR能力、高解像度処理能力を備えています。
テキスト生成画像 Transformers
I
OpenGVLab
155
79
Idefics2 8b Base
Apache-2.0
Idefics2はHugging Faceが開発したオープンソースのマルチモーダルモデルで、画像とテキスト入力を処理しテキスト出力を生成でき、OCR、ドキュメント理解、視覚的推論において優れた性能を発揮します。
画像生成テキスト Transformers 英語
I
HuggingFaceM4
1,409
28
Vitamin XL 256px
MIT
ViTamin-XL-256pxはViTaminアーキテクチャに基づく視覚言語モデルで、効率的な視覚特徴抽出とマルチモーダルタスク向けに設計されており、高解像度画像処理をサポートします。
テキスト生成画像 Transformers
V
jienengchen
655
1
Vitamin XL 384px
MIT
ViTamin-XL-384px はViTaminアーキテクチャに基づく大規模視覚言語モデルで、視覚言語タスク向けに設計されており、高解像度画像処理とマルチモーダル特徴抽出をサポートします。
画像生成テキスト Transformers
V
jienengchen
104
20
Siglip So400m 14 980 Flash Attn2 Navit
Apache-2.0
SigLIPベースのビジョンモデルで、補間位置埋め込みにより最大解像度を980x980に向上させ、NaViT戦略による可変解像度とアスペクト比維持の画像処理を実現
テキスト生成画像 Transformers
S
HuggingFaceM4
4,153
46
Chattruth 7B
ChatTruth-7BはQwen-VLアーキテクチャを最適化した多言語視覚-言語モデルで、高解像度画像処理能力を強化し、還元モジュールを導入して計算コストを削減
画像生成テキスト Transformers 複数言語対応
C
mingdali
73
13
Sdxl Instructpix2pix 768
Stable Diffusion XL (SDXL)をベースに指令で微調整された画像編集モデルで、InstructPix2Pix手法を採用し、自然言語指令による画像編集をサポートします。
画像生成
S
diffusers
15.88k
50
Vit Small Patch14 Dinov2.lvd142m
Apache-2.0
視覚Transformer(ViT)ベースの画像特徴モデル、自己教師ありDINOv2手法でLVD-142Mデータセット上で事前学習
画像分類 Transformers
V
timm
35.85k
3
Vit Base Patch16 224 In21k Eurosat
Apache-2.0
Google Vision Transformer (ViT)アーキテクチャに基づく事前学習モデルで、EuroSatデータセットでファインチューニングされており、リモートセンシング画像分類タスクに適しています。
画像分類 Transformers
V
ingeniou
25
0
Segformer B5 Finetuned Cityscapes 1024 1024
その他
1024x1024解像度でCityScapesデータセットにファインチューニングされたSegFormerセマンティックセグメンテーションモデルで、階層型Transformerエンコーダと軽量な全MLPデコーダヘッドアーキテクチャを採用しています。
画像セグメンテーション Transformers
S
nvidia
31.18k
24
Segformer B5 Finetuned Ade 640 640
その他
SegFormerはTransformerアーキテクチャに基づくセマンティックセグメンテーションモデルで、ADE20kデータセットでファインチューニングされており、画像分割タスクに適しています。
画像セグメンテーション Transformers
S
nvidia
42.32k
39
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase