Openvision Vit So400m Patch14 384
Apache-2.0
OpenVisionは、完全にオープンでコスト効率の高い高度なビジョンエンコーダのファミリーで、マルチモーダル学習に使用されます。
マルチモーダル融合
O
UCSC-VLAA
238
0
Openvision Vit Base Patch8 384
Apache-2.0
OpenVisionは完全にオープンソースでコスト効率の良い先進的な視覚エンコーダーファミリーで、マルチモーダル学習向けに設計されています。
マルチモーダル融合
Transformers

O
UCSC-VLAA
47
0
Openvision Vit Base Patch16 160
Apache-2.0
OpenVisionは、マルチモーダル学習のための完全オープンソースでコスト効率の高い高度な視覚エンコーダーファミリーです。
マルチモーダル融合
O
UCSC-VLAA
15
0
Openvision Vit Small Patch8 384
Apache-2.0
OpenVisionは完全にオープンでコストパフォーマンスに優れた先進的なビジョンエンコーダーファミリーで、マルチモーダル学習に焦点を当てています。
マルチモーダル融合
O
UCSC-VLAA
21
0
Openvision Vit Small Patch16 224
Apache-2.0
OpenVisionは、完全にオープンでコストパフォーマンスに優れた先進的な視覚エンコーダファミリーで、マルチモーダル学習に焦点を当てています。
画像の拡張
O
UCSC-VLAA
17
0
Med Dis B
PyTorchベースの動作認識モデルで、ロボット技術分野に適しています
動画処理
M
therarelab
14
0
Wedgit Stack Single Fixed
拡散戦略に基づくロボット制御モデルで、PyTorchModelHubMixinを統合して公開
マルチモーダル融合
W
jclinton1
76
0
Instruct CLIP
Apache-2.0
InstructCLIPは対照学習を通じてデータを自動最適化するモデルで、命令誘導の画像編集効果を向上させることを目的としています。
テキスト生成画像 英語
I
SherryXTChen
74
2
Genmedclip B 16 PMB
MIT
open_clipライブラリを基にしたゼロショット画像分類モデルで、医療分野の画像分析に特化
画像分類
G
wisdomik
408
0
Genmedclip
MIT
GenMedClipはopen_clipライブラリを基にしたゼロショット画像分類モデルで、医療画像分析に特化しています。
画像分類
G
wisdomik
40
0
Moe LLaVA Qwen 1.8B 4e
Apache-2.0
MoE-LLaVAはエキスパート混合アーキテクチャに基づく大規模視覚言語モデルで、スパース活性化パラメータにより効率的なマルチモーダル学習を実現
テキスト生成画像
Transformers

M
LanguageBind
176
14
Echo Clip R
MIT
オープンCLIPライブラリを基にしたゼロショット画像分類モデルで、様々な視覚タスクをサポート
画像分類
E
mkaichristensen
547
4
Git 20
MIT
マイクロソフトGITフレームワークを基にしたマルチモーダルモデルで、学生の宿題画像からテキストを抽出し教師のフィードバックを生成することに特化
画像生成テキスト
Transformers 複数言語対応

G
uf-aice-lab
18
1
Git Base Textvqa
MIT
microsoft/git-base-textvqaを基にtextvqaデータセットでファインチューニングした視覚質問応答モデルで、テキストを含む画像の質問応答タスクに優れています
大規模言語モデル
Transformers その他

G
Hellraiser24
19
0
Dof Passport 1
MIT
naver-clova-ix/donut-baseを微調整したモデル、具体的な用途は明記されていません
画像生成テキスト
Transformers

D
Sebabrata
16
0
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98