モデル選定

マルチモーダルアライメント

# マルチモーダルアライメント

CLIP-ViT-B/32をファインチューニングした視覚言語モデルで、画像-テキストマッチングタスクに適しています

テキスト生成画像

ヘルメスフローは汎用的なマルチモーダル大規模言語モデルアライメントフレームワークで、自律的に同源の嗜好データを生成し、セルフゲームによる反復最適化とペアリングDPO技術を通じて、マルチモーダル理解と生成のギャップをシームレスに埋めることができます。

画像生成テキスト

Resnet50x64 Clip Gap.openai

ResNet50アーキテクチャに基づくCLIPモデルの画像エンコーダー、64倍の幅拡張を備え、グローバル平均プーリング(GAP)戦略を使用

Resnet50x16 Clip Gap.openai

CLIPフレームワークに基づくResNet50x16バリアントモデル、画像特徴抽出に特化

AA Chameleon 7b Plus

これは強力なテキストと画像の交互入出力モデルで、アライメント万能アルゴリズムによる深いアライメントを行い、画像生成能力と人間の嗜好へのアライメント能力を向上させています。

テキスト生成画像

Transformers 英語

HPTは異なるエンティティを共有潜在空間にアライメントするトランスフォーマーモデルで、戦略学習における拡張行動の研究に焦点を当てています。

マルチモーダルアライメント

Owlvit Tiny Non Contiguous Weight

OWL-ViTは視覚Transformerベースのオープン語彙物体検出モデルで、訓練データに存在しないカテゴリの物体を画像から検出可能です。

テキスト生成画像

Languagebind Video FT

LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として、ビデオ、赤外線、深度、音声など様々なモダリティの意味的アライメントを実現します。

マルチモーダルアライメント

Languagebind Video

LanguageBindは、言語の意味的アライメントを通じてビデオ-言語事前学習をNモーダルに拡張するマルチモーダル事前学習フレームワークで、ICLR 2024に採録されました。

マルチモーダルアライメント

Tinysapbert From TinyPubMedBERT V1.0

TinySapBERTは、SapBERTフレームワークに基づいて訓練されたマイクロ生物医学エンティティ表現モデルで、生物医学の命名エンティティ認識タスクに特化して設計されています。

大規模言語モデル

Distilbert Base Turkish Cased Clip

dbmdz/distilbert-base-turkish-casedをベースにファインチューニングされたトルコ語テキストエンコーダーで、CLIPのViT - B/32画像エンコーダーと組み合わせて使用するためのものです。

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase