Openvision Vit Huge Patch14 224
Apache-2.0
OpenVisionは完全オープンでコストパフォーマンスの高い先進的な視覚エンコーダーファミリーで、マルチモーダル学習に焦点を当てています。
マルチモーダル融合
O
UCSC-VLAA
27
2
Florence 2 Large DOTA V1.0 Lmmrotate
MIT
LMMRotateは回転物体検出タスク向けにファインチューニングされた大規模マルチモーダル言語モデルで、特に航空写真解析に適しています。
画像生成テキスト
TensorBoard 英語

F
Qingyun
17
1
Aimv2 3b Patch14 224.apple Pt
AIM-v2は効率的な画像エンコーダーモデルで、timmフレームワークと互換性があり、コンピュータビジョンタスクに適しています。
画像分類
Transformers

A
timm
50
0
Paligemma2 10b Pt 896
PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキストの入力からテキスト出力を生成可能
画像生成テキスト
Transformers

P
google
233
32
Paligemma2 10b Pt 448
PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキスト入力をサポートしてテキスト出力を生成します。
画像生成テキスト
Transformers

P
google
282
14
Paligemma2 3b Pt 448
PaliGemma 2はGemma 2をベースとした視覚言語モデルで、画像とテキストの入力に対応し、テキスト出力を生成します。様々な視覚言語タスクに適しています。
画像生成テキスト
Transformers

P
google
3,412
45
Aimv2 Large Patch14 336 Distilled
AIMv2はマルチモーダル自己回帰目標事前学習に基づく視覚モデルシリーズで、マルチモーダル理解ベンチマークで優れた性能を発揮
画像分類
A
apple
37
3
Ssast Small Patch Audioset 16 16
Bsd-3-clause
AudioSetとLibrispeechで事前学習された音声分類モデル、視覚変換器アーキテクチャを用いて音声スペクトログラムを処理
音声分類
Transformers

S
Simon-Kotchou
2,408
1
Pmc Vit L 14
OpenAIのViT-L-14モデルを基に、PMC_OA_betaとrocoデータセットでファインチューニングした視覚言語モデルで、生物医学分野のテキストから画像タスクに特化
テキスト生成画像 英語
P
ryanyip7777
523
4
Segformer B0 Finetuned Food
Apache-2.0
Transformers ライブラリに基づく画像分割モデルで、様々な画像分割タスクをサポートします。
画像セグメンテーション
Transformers 英語

S
prem-timsina
20
5
Autotrain Vision Tcg 40463105224
これはAutoTrainでトレーニングされた多クラス画像分類モデルで、検証セットで優れたパフォーマンスを示し、すべての評価指標が1.0に達しました。
画像分類
Transformers

A
micazevedo
16
0
Mt5 Small
Apache-2.0
mT5はT5モデルの多言語バリアントで、101言語をサポートし、mC4コーパスに基づいて事前学習されており、多言語テキスト生成と理解タスクに適しています。
大規模言語モデル 複数言語対応
M
google
139.42k
149
Wav2vec2 Lv 60 Espeak Cv Ft
Apache-2.0
このモデルはWav2Vec2-Large-LV60事前学習モデルを基に、CommonVoiceデータセットでファインチューニングされ、多言語音素認識に使用されます。
音声認識
Transformers その他

W
facebook
18.77k
43
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98