# ゼロショット汎化

Sam Hq Vit Huge
Apache-2.0
SAM-HQはSegment Anything Model(SAM)の強化版で、より高品質な物体マスクを生成でき、特に複雑な構造の物体処理に適しています。
画像セグメンテーション Transformers
S
syscv-community
516
2
Sam Hq Vit Large
Apache-2.0
SAM-HQはSegment Anything Model(SAM)の強化版で、点やボックスなどの入力プロンプトからより高品質なオブジェクトマスクを生成できます。
画像セグメンテーション Transformers
S
syscv-community
60
1
Textflux
TextFluxはOCR不要の拡散トランスフォーマーに基づく高忠実度多言語シーンテキスト合成モデルで、FLUX.1-Fill-devをベースモデルとして使用し、シーンテキスト合成タスクに特化しています。
画像生成
T
yyyyyxie
284
2
Visualclozepipeline 384
Apache-2.0
VisualClozeは視覚的コンテキスト学習に基づく汎用画像生成フレームワークで、複数のドメイン内タスクや未知タスクへの汎化をサポートし、単一ステップの生成で目標画像と中間結果を同時に出力します。
テキスト生成画像
V
VisualCloze
294
5
Biqwen2 V0.1
Apache-2.0
BiQwen2はQwen2-VL-2B-InstructとColBERT戦略に基づく視覚検索モデルで、効率的な視覚文書検索に特化しています。
テキスト生成画像 Safetensors 英語
B
vidore
460
0
Poseless 3B
Apache-2.0
Poseless-3Bは、視覚言語モデル(VLM)ベースのロボットハンド制御フレームワークで、明示的な姿勢推定なしに2D画像を関節角度に直接マッピングできます。
姿勢推定 Transformers
P
Menlo
65
10
Poseless 3B
Apache-2.0
PoseLessは、明示的な姿勢推定を必要とせず、投影表現を使用して2D画像を直接関節角度にマッピングする革新的なロボットハンド制御フレームワークです。
マルチモーダル融合 Transformers
P
homebrewltd
98
7
Sam Hq Vit Base
Apache-2.0
SAM-HQはSegment Anything Modelの強化版で、点やボックスなどの入力プロンプトからより高品質な物体マスクを生成
画像セグメンテーション Transformers
S
syscv-community
5,316
8
Colqwen2 V1.0 Hf
Apache-2.0
Qwen2-VL-2B-InstructとColBERT戦略に基づく視覚検索モデルで、テキストと画像のマルチベクトル表現を生成可能
テキスト生成画像 Transformers 英語
C
vidore
61
0
Colqwen2.5 V0.1
MIT
Qwen2.5-VL-3B-InstructとColBERT戦略に基づく視覚検索モデルで、テキストと画像のマルチベクトル表現を生成し、効率的な文書検索に使用できます。
テキスト生成画像 英語
C
vidore
985
0
Colsmol 256M
MIT
SmolVLM-Instruct-250MをベースにColBERT戦略を採用した視覚検索器で、視覚特徴から効率的にドキュメントをインデックス化可能
テキスト生成画像 英語
C
vidore
42.84k
8
Colsmolvlm V0.1
SmolVLM-InstructとColBERT戦略に基づく視覚検索モデルで、視覚的特徴を通じて文書を効率的にインデックス化可能
テキスト生成画像
C
vidore
1,353
52
Lotus Depth D V1 0
Apache-2.0
Lotusは拡散モデルベースの視覚基盤モデルで、高品質な密集予測タスクに特化しています。
3Dビジョン
L
jingheya
135
4
Lotus Depth G V1 0
Apache-2.0
Lotusは拡散モデルに基づく視覚基盤モデルで、高品質な密集予測タスクに特化しています。
3Dビジョン
L
jingheya
33.45k
21
Colqwen2 V0.1
Apache-2.0
Qwen2-VL-2B-InstructとColBERT戦略に基づく視覚検索モデルで、視覚的特徴を通じて文書を効率的にインデックス化可能
テキスト生成画像 Safetensors 英語
C
vidore
21.25k
170
Colpali V1.2
MIT
ColPaliはPaliGemma-3BとColBERT戦略に基づく視覚言語モデルで、視覚的特徴から効率的に文書をインデックス化します。
テキスト生成画像 英語
C
vidore
61.77k
108
Robustsam Vit Base
MIT
RobustSAMは劣化画像においてロバストなセグメンテーションを実現するモデルで、SAMを改良し、低品質画像でのセグメンテーション性能を向上させています。
画像セグメンテーション Transformers その他
R
jadechoghari
314
3
Sam2 Hiera Large
Apache-2.0
FAIRが開発した画像とビデオ向けのプロンプト可能な視覚セグメンテーションの基礎モデル
画像セグメンテーション
S
facebook
155.85k
68
Openvla 7b
MIT
OpenVLA 7BはOpen X-Embodimentデータセットでトレーニングされたオープンソースの視覚-言語-動作モデルで、言語命令とカメラ画像に基づいてロボットの動作を生成できます。
画像生成テキスト Transformers 英語
O
openvla
1.7M
108
Openvla V01 7b
MIT
OpenVLA v0.1 7Bはオープンソースの視覚-言語-動作モデルで、Open X-Embodimentデータセットでトレーニングされ、さまざまなロボット制御をサポートします。
テキスト生成画像 Transformers 英語
O
openvla
30
10
Aisak Detect
その他
AISAK-DetectはAISAK-Visualシステムの中核となる目標検出コンポーネントで、畳み込みバックボーンTransformerアーキテクチャを採用し、画像内の物体を効率的かつ正確に識別します。
物体検出 Transformers 英語
A
aisak-ai
19
0
Whisper Large V3
Apache-2.0
WhisperはOpenAIが提案した先進的な自動音声認識(ASR)および音声翻訳モデルで、500万時間以上の注釈付きデータで訓練されており、強力なデータセット間およびドメイン間の汎化能力を持っています。
音声認識 複数言語対応
W
openai
4.6M
4,321
Llama 2 7b Absa
Apache-2.0
Llama-2-7bをファインチューニングしたABSAモデルで、テキスト内のアスペクトを識別し感情を分析するのに優れています
大規模言語モデル Transformers 複数言語対応
L
Orkhan
124
12
Biomednlp KRISSBERT PubMed UMLS EL
MIT
KRISSBERTは知識強化型自己教師あり学習に基づく生物医学エンティティリンキングモデルで、アノテーションのないテキストとドメイン知識を活用してコンテキストエンコーダーを訓練し、エンティティ名の多様なバリエーションと曖昧性の問題を効果的に解決します。
知識グラフ Transformers 英語
B
microsoft
4,643
29
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase