Devstral Small Vision 2505 GGUF
Apache-2.0
Mistral Smallモデルを基にした視覚エンコーダーで、画像テキスト生成タスクをサポートし、llama.cppフレームワークに適応
画像生成テキスト
D
ngxson
777
20
Gemma 3 12b It Qat 3bit
その他
これはGoogle Gemma 3-12Bモデルを変換したMLX形式のモデルで、画像テキストからテキストへのタスクをサポートします。
画像生成テキスト
Transformers その他

G
mlx-community
65
1
Florence 2 Base Gpt4 Captioner V1
MIT
Florence-2-base-ftを微調整したGPT4-Oスタイルの字幕ジェネレーターで、画像説明を生成するために使用されます
画像生成テキスト
Transformers 複数言語対応

F
Vimax97
224
0
Pixtral 12b Nf4
Apache-2.0
MistralコミュニティのPixtral-12Bを基にした4ビット量子化バージョンで、画像からテキストへのタスクに特化し、中国語の説明生成をサポート
画像生成テキスト
Transformers

P
SeanScripts
236
20
Base ZhEn
このモデルは画像の内容をテキスト説明に変換するために使用され、非商用目的に適しています。
文字認識
B
MixTex
50
0
Moondream Caption
Apache-2.0
Moondream2ベースのカスタム小型視覚モデル、画像説明生成タスク向けに微調整
画像生成テキスト
Transformers

M
wraps
108
9
Image Captioning Vit Gpt2 Flick8k
Apache-2.0
このモデルは入力された画像を記述的なテキストに変換することができ、様々なシーンでの画像理解タスクに適用できます。
画像生成テキスト
Transformers

I
pltnhan311
18
0
Final Model
Apache-2.0
このモデルはApache-2.0ライセンスに基づく画像からテキストへの変換モデルで、画像の内容をテキスト記述に変換できます。
文字認識
Transformers

F
goatrider
17
0
Image Model
これはtransformersベースの画像からテキストへの変換モデルで、具体的な機能はさらに情報を追加する必要があります
画像生成テキスト
Transformers

I
Mouwiya
15
0
Moondream Prompt
Apache-2.0
Moondream2のファインチューニング版で、画像プロンプト生成に最適化された軽量視覚言語モデルです。エッジデバイスでの効率的な実行に適しています。
画像生成テキスト
Transformers

M
gokaygokay
162
10
Spydazwebai Image Projectors
Transformersライブラリをベースにした画像からテキストへの変換モデルで、画像の内容を記述的なテキストに変換し、アート分野に適しています。
画像生成テキスト 複数言語対応
S
LeroyDyer
560
1
Distilvit
Apache-2.0
VIT画像エンコーダーと蒸留版GPT-2テキストデコーダーを基にした視覚言語モデルで、画像説明生成タスクに使用
画像生成テキスト
Transformers

D
Mozilla
290
19
Git Base Minecraft
MIT
これは視覚ベースの画像テキスト変換モデルで、画像の説明文を生成できます。
画像生成
Transformers 複数言語対応

G
orzhan
22
0
Imagecaptioningtransformers
Apache-2.0
このモデルは入力された画像を記述的なテキストに変換でき、様々なシーンでの画像コンテンツ理解タスクに適用可能です。
画像生成
Transformers

I
adityarajkishan
13
0
Blip Dalle3 Img2prompt
BLIPモデルをファインチューニングし、DALL·E 3で生成された画像から、その画像を生成するために使用された可能性のあるプロンプトテキストを逆方向に推測するために使用されます
画像生成テキスト
Transformers 複数言語対応

B
dblasko
98
36
Git Base On Diffuision Dataset2
MIT
microsoft/git-baseをdiffuision-dataset2データセットでファインチューニングした画像からテキスト生成モデル
画像生成テキスト
Transformers 複数言語対応

G
hieudinhpro
17
0
Git Base One Piece
MIT
マイクロソフトのgit-baseモデルをファインチューニングした視覚言語モデルで、アニメ『ワンピース』の画像に対して記述的なテキスト字幕を生成するために特別に設計されています
画像生成テキスト
Transformers 複数言語対応

G
ayoubkirouane
16
0
Git Base Next
MIT
microsoft/git-baseをファインチューニングした画像からテキストへの変換モデル
画像生成テキスト
Transformers その他

G
swaroopajit
19
1
Git Base Fashion
MIT
microsoft/git-baseをファインチューニングした画像からテキストへの変換モデルで、ファッション分野に適しています
画像生成テキスト
Transformers その他

G
swaroopajit
41
1
Instructblip Vicuna 7b 8bit
InstructBLIP-Vicuna-7B は Vicuna-7B をベースとした視覚-言語モデルで、画像からテキストへの変換タスクをサポートします。
画像生成テキスト
Transformers

I
Mediocreatmybest
24
3
Image2ingredients
Openrail
画像の内容をテキスト説明に変換できるモデルで、様々な視覚理解タスクに適用可能です。
画像生成テキスト
Transformers

I
SumanthKarnati
22
0
Caption Gen
MIT
MITライセンスに基づく画像キャプション生成モデルで、英語をサポートし、画像内容を記述テキストに変換することに特化しています。
画像生成テキスト
Transformers

C
captioner
23
0
Fusecap Image Captioning
MIT
FuseCapは、意味的に豊かな画像説明を生成するために設計されたフレームワークで、大規模言語モデルを活用して画像説明を融合生成します。
画像生成テキスト
Transformers

F
noamrot
2,771
22
Git Base Pokemon
MIT
microsoft/git-baseをベースにファインチューニングした画像説明生成モデルで、ポケモン画像データセットでトレーニング
画像生成テキスト
Transformers その他

G
jihwaneom
14
0
Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k
MIT
これはMITライセンスに基づく画像テキスト変換モデルで、画像の内容をテキスト説明に変換できます。
画像生成テキスト
M
laion
21.02k
20
Git Base Textcaps
MIT
GITはTransformerベースの生成的画像からテキストへのモデルで、視覚的コンテンツを記述的なテキストに変換できます。
画像生成テキスト
Transformers 複数言語対応

G
microsoft
482
8
Flamingo Mini
Apache-2.0
Flamingo Miniは概念的アノテーションデータセットで事前学習された視覚言語モデルで、画像説明生成タスクに特化しています。
画像生成テキスト
Transformers 英語

F
dhansmair
196
13
Flamingo Tiny
Apache-2.0
Flamingo-miniは概念的アノテーションデータセットで事前学習されたミニ画像説明生成モデルで、画像からテキスト説明を生成することに特化しています。
画像生成テキスト
Transformers 英語

F
dhansmair
56
5
Vitgpt2 Vizwiz
ViT-GPT2アーキテクチャに基づく視覚-言語モデルで、画像からテキストへの変換タスクに使用
画像生成テキスト
Transformers

V
gagan3012
24
1
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98