モデル選定

視覚言語事前学習

# 視覚言語事前学習

Sail Clip Hendrix 10epochs

openai/clip-vit-large-patch14をベースにファインチューニングした視覚言語モデル、10エポックの訓練を経て

テキスト生成画像

Minivla Vq Bridge Prismatic

MiniVLAは、より小型でありながら高性能な視覚言語アクションモデルで、Prismatic VLMsプロジェクトコードベースと互換性があります。

画像生成テキスト

Transformers 英語

BLIPは統一された視覚言語事前学習フレームワークで、画像キャプション生成や視覚的質問応答などのタスクに優れており、革新的なデータフィルタリングメカニズムにより性能を向上させています

画像生成テキスト

Image Captioning With Blip

BLIPは統一された視覚言語事前学習フレームワークで、画像キャプション生成などのタスクに優れており、条件付きおよび無条件のテキスト生成をサポートします

画像生成テキスト

Vilt Finetuned 200

ViLTアーキテクチャに基づく視覚言語モデルで、特定タスク向けにファインチューニング済み

テキスト生成画像

Llava V1.5 Mlp2x 336px Pretrain Vicuna 7b V1.5

LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、GPTで生成されたマルチモーダル指示追従データでトレーニングされています。

テキスト生成画像

OTTER MPT7B Init

OTTER-MPT7B-InitはOtterモデルのトレーニング初期化用の重みで、Openflamingoから直接変換されたものです。

テキスト生成画像

Salesforce/blip-image-captioning-baseをファインチューニングした画像キャプション生成モデル

画像生成テキスト

Pix2struct Large

Pix2Structは画像エンコーダー-テキストデコーダーモデルで、画像-テキストペアで訓練され、様々な視覚言語タスクに適用可能

画像生成テキスト

Transformers 複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase