Smolvlm 500M Anime Caption V0.2
Apache-2.0
アニメスタイルの画像記述に特化した視覚言語モデル、SmolVLM-500M-Baseをファインチューニング
画像生成テキスト
Safetensors 英語
S
Andres77872
17
0
Smolvlm 500M Anime Caption V0.1
Apache-2.0
アニメスタイル画像の記述に特化した視覚言語モデル。SmolVLM-500M-Baseをファインチューニングし、大規模言語モデルで生成された18万組の合成画像/字幕ペアでトレーニング。
画像生成テキスト 英語
S
Andres77872
61
0
Granite Vision 3.2 2b
Apache-2.0
granite-vision-3.2-2bは、視覚的文書理解のために設計されたコンパクトで効率的な視覚言語モデルで、表、チャート、インフォグラフィックなどから自動的に内容を抽出できます。
画像生成テキスト
Transformers 英語

G
unsloth
43
1
Paligemma 3b Ft Science Qa 448
PaliGemmaはGoogleが開発した30億パラメータの軽量視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力からテキスト出力を生成できます。
画像生成テキスト
Transformers

P
google
15
2
Paligemma 3b Pt 448
PaliGemmaはSigLIP視覚モデルとGemma言語モデルを基盤とした軽量で多機能な視覚言語モデルで、多言語の画像テキスト相互作用タスクをサポートします。
画像生成テキスト
Transformers

P
google
2,708
29
Paligemma 3b Mix 448
PaliGemmaは多機能な軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力を受け取りテキストを生成します
画像生成テキスト
Transformers

P
google
5,488
109
Paligemma 3b Ft Docvqa 896
PaliGemmaはGoogleが開発した軽量の視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基に構築されており、多言語の画像テキスト理解と生成をサポートします。
画像生成テキスト
Transformers

P
google
519
9
Paligemma 3b Ft Refcoco Seg 896
PaliGemmaはGoogleが開発した軽量視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基盤としており、多言語テキスト生成と視覚理解タスクをサポートします。
画像生成テキスト
Transformers

P
google
20
6
Paligemma 3b Mix 224
PaliGemmaは多機能で軽量な視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力をサポートし、テキスト結果を出力します。
テキスト生成画像
Transformers

P
google
143.03k
75
Paligemma 3b Pt 224
PaliGemmaは多機能な軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力を同時に処理しテキスト出力を生成できます。
画像生成テキスト
Transformers

P
google
38.40k
318
Paligemma 3b Ft Vqav2 448
PaliGemmaはGoogleが開発した軽量の視覚言語モデルで、画像理解とテキスト生成能力を組み合わせ、多言語タスクをサポートします。
テキスト生成画像
Transformers

P
google
121
17
Paligemma 3b Ft Ocrvqa 448
PaliGemmaはGoogleが開発した多機能軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキスト入力をサポートし、テキスト結果を出力します。
画像生成テキスト
Transformers

P
google
365
6
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98