Sail Clip Hendrix 10epochs
openai/clip-vit-large-patch14をベースにファインチューニングした視覚言語モデル、10エポックの訓練を経て
テキスト生成画像
Transformers

S
cringgaard
49
0
Minivla Vq Bridge Prismatic
MIT
MiniVLAは、より小型でありながら高性能な視覚言語アクションモデルで、Prismatic VLMsプロジェクトコードベースと互換性があります。
画像生成テキスト
Transformers 英語

M
Stanford-ILIAD
22
0
Zcabnzh Bp
Bsd-3-clause
BLIPは統一された視覚言語事前学習フレームワークで、画像キャプション生成や視覚的質問応答などのタスクに優れており、革新的なデータフィルタリングメカニズムにより性能を向上させています
画像生成テキスト
Transformers

Z
nanxiz
19
0
Image Captioning With Blip
Bsd-3-clause
BLIPは統一された視覚言語事前学習フレームワークで、画像キャプション生成などのタスクに優れており、条件付きおよび無条件のテキスト生成をサポートします
画像生成テキスト
Transformers

I
Vidensogende
16
0
Vilt Finetuned 200
Apache-2.0
ViLTアーキテクチャに基づく視覚言語モデルで、特定タスク向けにファインチューニング済み
テキスト生成画像
Transformers

V
Atul8827
35
0
Llava V1.5 Mlp2x 336px Pretrain Vicuna 7b V1.5
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、GPTで生成されたマルチモーダル指示追従データでトレーニングされています。
テキスト生成画像
Transformers

L
liuhaotian
173
17
OTTER MPT7B Init
MIT
OTTER-MPT7B-InitはOtterモデルのトレーニング初期化用の重みで、Openflamingoから直接変換されたものです。
テキスト生成画像
Transformers

O
luodian
53
3
Blip Test
Bsd-3-clause
Salesforce/blip-image-captioning-baseをファインチューニングした画像キャプション生成モデル
画像生成テキスト
Transformers

B
mooncakex
15
0
Pix2struct Large
Apache-2.0
Pix2Structは画像エンコーダー-テキストデコーダーモデルで、画像-テキストペアで訓練され、様々な視覚言語タスクに適用可能
画像生成テキスト
Transformers 複数言語対応

P
google
6,601
34
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98