モデル選定

画像説明生成

# 画像説明生成

Devstral Small Vision 2505 GGUF

Mistral Smallモデルを基にした視覚エンコーダーで、画像テキスト生成タスクをサポートし、llama.cppフレームワークに適応

画像生成テキスト

Gemma 3 12b It Qat 3bit

これはGoogle Gemma 3-12Bモデルを変換したMLX形式のモデルで、画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

Transformers その他

Florence 2 Base Gpt4 Captioner V1

Florence-2-base-ftを微調整したGPT4-Oスタイルの字幕ジェネレーターで、画像説明を生成するために使用されます

画像生成テキスト

Transformers 複数言語対応

Pixtral 12b Nf4

MistralコミュニティのPixtral-12Bを基にした4ビット量子化バージョンで、画像からテキストへのタスクに特化し、中国語の説明生成をサポート

画像生成テキスト

このモデルは画像の内容をテキスト説明に変換するために使用され、非商用目的に適しています。

Moondream Caption

Moondream2ベースのカスタム小型視覚モデル、画像説明生成タスク向けに微調整

画像生成テキスト

Image Captioning Vit Gpt2 Flick8k

このモデルは入力された画像を記述的なテキストに変換することができ、様々なシーンでの画像理解タスクに適用できます。

画像生成テキスト

このモデルはApache-2.0ライセンスに基づく画像からテキストへの変換モデルで、画像の内容をテキスト記述に変換できます。

これはtransformersベースの画像からテキストへの変換モデルで、具体的な機能はさらに情報を追加する必要があります

画像生成テキスト

Moondream Prompt

Moondream2のファインチューニング版で、画像プロンプト生成に最適化された軽量視覚言語モデルです。エッジデバイスでの効率的な実行に適しています。

画像生成テキスト

Spydazwebai Image Projectors

Transformersライブラリをベースにした画像からテキストへの変換モデルで、画像の内容を記述的なテキストに変換し、アート分野に適しています。

画像生成テキスト複数言語対応

VIT画像エンコーダーと蒸留版GPT-2テキストデコーダーを基にした視覚言語モデルで、画像説明生成タスクに使用

画像生成テキスト

Git Base Minecraft

これは視覚ベースの画像テキスト変換モデルで、画像の説明文を生成できます。

Transformers 複数言語対応

Imagecaptioningtransformers

このモデルは入力された画像を記述的なテキストに変換でき、様々なシーンでの画像コンテンツ理解タスクに適用可能です。

adityarajkishan

Blip Dalle3 Img2prompt

BLIPモデルをファインチューニングし、DALL·E 3で生成された画像から、その画像を生成するために使用された可能性のあるプロンプトテキストを逆方向に推測するために使用されます

画像生成テキスト

Transformers 複数言語対応

Git Base On Diffuision Dataset2

microsoft/git-baseをdiffuision-dataset2データセットでファインチューニングした画像からテキスト生成モデル

画像生成テキスト

Transformers 複数言語対応

Git Base One Piece

マイクロソフトのgit-baseモデルをファインチューニングした視覚言語モデルで、アニメ『ワンピース』の画像に対して記述的なテキスト字幕を生成するために特別に設計されています

画像生成テキスト

Transformers 複数言語対応

microsoft/git-baseをファインチューニングした画像からテキストへの変換モデル

画像生成テキスト

Transformers その他

Git Base Fashion

microsoft/git-baseをファインチューニングした画像からテキストへの変換モデルで、ファッション分野に適しています

画像生成テキスト

Transformers その他

Instructblip Vicuna 7b 8bit

InstructBLIP-Vicuna-7B は Vicuna-7B をベースとした視覚-言語モデルで、画像からテキストへの変換タスクをサポートします。

画像生成テキスト

Mediocreatmybest

Image2ingredients

画像の内容をテキスト説明に変換できるモデルで、様々な視覚理解タスクに適用可能です。

画像生成テキスト

MITライセンスに基づく画像キャプション生成モデルで、英語をサポートし、画像内容を記述テキストに変換することに特化しています。

画像生成テキスト

Fusecap Image Captioning

FuseCapは、意味的に豊かな画像説明を生成するために設計されたフレームワークで、大規模言語モデルを活用して画像説明を融合生成します。

画像生成テキスト

Git Base Pokemon

microsoft/git-baseをベースにファインチューニングした画像説明生成モデルで、ポケモン画像データセットでトレーニング

画像生成テキスト

Transformers その他

Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k

これはMITライセンスに基づく画像テキスト変換モデルで、画像の内容をテキスト説明に変換できます。

画像生成テキスト

Git Base Textcaps

GITはTransformerベースの生成的画像からテキストへのモデルで、視覚的コンテンツを記述的なテキストに変換できます。

画像生成テキスト

Transformers 複数言語対応

Flamingo Miniは概念的アノテーションデータセットで事前学習された視覚言語モデルで、画像説明生成タスクに特化しています。

画像生成テキスト

Transformers 英語

Flamingo-miniは概念的アノテーションデータセットで事前学習されたミニ画像説明生成モデルで、画像からテキスト説明を生成することに特化しています。

画像生成テキスト

Transformers 英語

ViT-GPT2アーキテクチャに基づく視覚-言語モデルで、画像からテキストへの変換タスクに使用

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase