# マルチモーダルアライメント

Cultureclip
CLIP-ViT-B/32をファインチューニングした視覚言語モデルで、画像-テキストマッチングタスクに適しています
テキスト生成画像 Transformers
C
lukahh
20
0
Hermesflow
Apache-2.0
ヘルメスフローは汎用的なマルチモーダル大規模言語モデルアライメントフレームワークで、自律的に同源の嗜好データを生成し、セルフゲームによる反復最適化とペアリングDPO技術を通じて、マルチモーダル理解と生成のギャップをシームレスに埋めることができます。
画像生成テキスト
H
Gen-Verse
218
4
Resnet50x64 Clip Gap.openai
Apache-2.0
ResNet50アーキテクチャに基づくCLIPモデルの画像エンコーダー、64倍の幅拡張を備え、グローバル平均プーリング(GAP)戦略を使用
画像分類 Transformers
R
timm
107
0
Resnet50x16 Clip Gap.openai
Apache-2.0
CLIPフレームワークに基づくResNet50x16バリアントモデル、画像特徴抽出に特化
画像分類 Transformers
R
timm
129
0
AA Chameleon 7b Plus
これは強力なテキストと画像の交互入出力モデルで、アライメント万能アルゴリズムによる深いアライメントを行い、画像生成能力と人間の嗜好へのアライメント能力を向上させています。
テキスト生成画像 Transformers 英語
A
PKU-Alignment
34
5
Hpt Base
HPTは異なるエンティティを共有潜在空間にアライメントするトランスフォーマーモデルで、戦略学習における拡張行動の研究に焦点を当てています。
マルチモーダルアライメント Transformers
H
liruiw
70
10
Owlvit Tiny Non Contiguous Weight
MIT
OWL-ViTは視覚Transformerベースのオープン語彙物体検出モデルで、訓練データに存在しないカテゴリの物体を画像から検出可能です。
テキスト生成画像 Transformers
O
fxmarty
337
0
Languagebind Video FT
MIT
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として、ビデオ、赤外線、深度、音声など様々なモダリティの意味的アライメントを実現します。
マルチモーダルアライメント Transformers
L
LanguageBind
22.97k
4
Languagebind Video
MIT
LanguageBindは、言語の意味的アライメントを通じてビデオ-言語事前学習をNモーダルに拡張するマルチモーダル事前学習フレームワークで、ICLR 2024に採録されました。
マルチモーダルアライメント Transformers
L
LanguageBind
166
2
Tinysapbert From TinyPubMedBERT V1.0
TinySapBERTは、SapBERTフレームワークに基づいて訓練されたマイクロ生物医学エンティティ表現モデルで、生物医学の命名エンティティ認識タスクに特化して設計されています。
大規模言語モデル Transformers
T
dmis-lab
16.93k
0
Distilbert Base Turkish Cased Clip
dbmdz/distilbert-base-turkish-casedをベースにファインチューニングされたトルコ語テキストエンコーダーで、CLIPのViT - B/32画像エンコーダーと組み合わせて使用するためのものです。
テキスト生成画像 Transformers
D
mys
2,354
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase