すべてのカテゴリ

画像生成テキスト

2025年最高の 895 個の画像生成テキストツール

Clip Vit Large Patch14

CLIPはOpenAIによって開発された視覚-言語モデルで、コントラスティブラーニングを通じて画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類をサポートします

画像生成テキスト

Clip Vit Base Patch32

CLIPはOpenAIが開発したマルチモーダルモデルで、画像とテキストの関係を理解し、ゼロショット画像分類タスクをサポートします。

画像生成テキスト

Siglip So400m Patch14 384

SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたシグモイド損失関数を採用し、画像-テキストマッチングタスクを最適化しています。

画像生成テキスト

Clip Vit Base Patch16

CLIPはOpenAIが開発したマルチモーダルモデルで、コントラスティブラーニングにより画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類能力を実現します。

画像生成テキスト

Blip Image Captioning Base

BLIPは先進的な視覚-言語事前学習モデルで、画像キャプション生成タスクに優れており、条件付きおよび無条件のテキスト生成をサポートします。

画像生成テキスト

Blip Image Captioning Large

BLIPは統一された視覚-言語事前学習フレームワークで、画像キャプション生成タスクに優れており、条件付きおよび無条件の画像キャプション生成をサポートします。

画像生成テキスト

OpenVLA 7BはOpen X-Embodimentデータセットでトレーニングされたオープンソースの視覚-言語-動作モデルで、言語命令とカメラ画像に基づいてロボットの動作を生成できます。

画像生成テキスト

Transformers 英語

LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、画像とテキストのインタラクションをサポートします。

画像生成テキスト

Vit Gpt2 Image Captioning

これはViTとGPT2アーキテクチャに基づく画像記述生成モデルで、入力画像に対して自然言語の記述を生成することができます。

画像生成テキスト

BLIP-2は画像エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像からテキストを生成するタスクに使用されます。

画像生成テキスト

Transformers 英語

Siglip2 So400m Patch14 384

SigLIP 2はSigLIP事前学習目標に基づく視覚言語モデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合しています。

画像生成テキスト

GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiと同じ研究と技術に基づいて構築されています。Gemma 3はマルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成できます。

画像生成テキスト

Llava Llama 3 8b V1 1 Transformers

Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像テキストからテキストタスクをサポート

画像生成テキスト

Phi 3.5 Vision Instruct

Phi-3.5-visionは、軽量で最先端のオープンマルチモーダルモデルで、128Kのコンテキスト長をサポートし、高品質で推論に富んだテキストと視覚データに焦点を当てています。

画像生成テキスト

Transformers その他

GemmaはGoogleが提供する軽量で最先端のオープンモデルシリーズで、Geminiと同じ技術を基に構築されており、マルチモーダル入力とテキスト出力をサポートします。

画像生成テキスト

GITはCLIP画像トークンとテキストトークンを双条件とするTransformerデコーダで、画像からテキストを生成するタスクに使用されます。

画像生成テキスト

Transformers 複数言語対応

GemmaはGoogleが提供する軽量で最先端のオープンソースマルチモーダルモデルシリーズで、Geminiモデルの技術を基に構築されており、テキストと画像の入力をサポートし、テキスト出力を生成します。

画像生成テキスト

Siglip Base Patch16 224

SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたSigmoid損失関数を採用し、画像-テキストマッチングタスクを最適化

画像生成テキスト

Siglip Large Patch16 384

SigLIPはWebLiデータセットで事前学習されたマルチモーダルモデルで、改良されたSigmoid損失関数を採用しており、ゼロショット画像分類や画像テキスト検索タスクに適しています。

画像生成テキスト

Blip2 Opt 6.7b Coco

BLIP-2は画像エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像からテキスト生成や視覚的質問応答タスクに使用されます。

画像生成テキスト

Transformers 英語

Trocr Base Handwritten

TrOCRは、手書きテキスト認識に特化したTransformerベースの光学式文字認識モデルです。

画像生成テキスト

Moondreamは軽量ビジュアル言語モデルで、効率的な全プラットフォーム実行のために設計されています。

画像生成テキスト

Kosmos 2 Patch14 224

Kosmos-2はマルチモーダル大規模言語モデルで、画像に関連するテキスト記述を理解・生成し、テキストと画像領域の関連付けを実現します。

画像生成テキスト

Donut Base Finetuned Docvqa

DonutはOCRを必要としない文書理解Transformerモデルで、DocVQAデータセットでファインチューニングされており、画像から直接テキスト情報を抽出・理解できます。

画像生成テキスト

Biomedclip PubMedBERT 256 Vit Base Patch16 224

BiomedCLIPは、PMC-15Mデータセットで対照学習により事前学習された生物医学視覚言語基盤モデルで、クロスモーダル検索、画像分類、視覚的質問応答などのタスクをサポートします。

画像生成テキスト英語

Donut Base Finetuned Rvlcdip

DonutはOCRを必要としないドキュメント理解Transformerモデルで、ビジュアルエンコーダーとテキストデコーダーを組み合わせてドキュメント画像を処理します。

画像生成テキスト

Minicpm V 2 6 Int4

MiniCPM-V 2.6はマルチモーダルな視覚言語モデルで、画像テキストからテキストへの変換をサポートし、多言語処理能力を備えています。

画像生成テキスト

Transformers その他

Blip2 Flan T5 Xl

BLIP-2はFlan T5-xlを基にした視覚言語モデルで、画像エンコーダーと大規模言語モデルの重みを凍結した状態で事前学習を行い、画像キャプション生成や視覚的質問応答などのタスクをサポートします。

画像生成テキスト

Transformers 英語

MiniCPM-Vはモバイル端末向けのGPT-4Vレベルのマルチモーダル大規模言語モデルで、単一画像、複数画像、動画の理解をサポートし、視覚、光学文字認識などの機能を備えています。

画像生成テキスト

Transformers その他

H2ovl Mississippi 2b

H2OVL-Mississippi-2BはH2O.aiが開発した高性能な汎用視覚言語モデルで、幅広いマルチモーダルタスクを処理できます。このモデルは20億のパラメータを持ち、画像キャプション生成、視覚的質問応答（VQA）、文書理解などのタスクで優れた性能を発揮します。

画像生成テキスト

Transformers 英語

Clip Flant5 Xxl

google/flan-t5-xxlをベースに微調整されたビジュアル言語生成モデルで、画像テキスト検索タスク向けに設計されています。

画像生成テキスト

Transformers 英語

Florence 2 SD3 Captioner

Florence-2-SD3-Captioner は Florence-2 アーキテクチャに基づく画像キャプション生成モデルで、高品質な画像説明テキストを生成するために特別に設計されています。

画像生成テキスト

Transformers 複数言語対応

H2ovl Mississippi 800m

H2O.aiが開発した8億パラメータの視覚言語モデルで、OCRとドキュメント理解に優れた性能を発揮

画像生成テキスト

Transformers 英語

16億パラメータのマルチモーダルモデル、SigLIPとPhi-1.5技術アーキテクチャを融合、画像理解と質問応答タスクをサポート

画像生成テキスト

Transformers 英語

Gemma 3 27b It Qat Q4 0 Gguf

GemmaはGoogleが提供する軽量オープンソースのマルチモーダルモデルシリーズで、テキストと画像の入力に対応しテキストを出力します。128Kの大規模コンテキストウィンドウと140以上の言語をサポートしています。

画像生成テキスト

Smolvlm2 2.2B Instruct

SmolVLM2-2.2Bは、動画コンテンツ分析のために設計された軽量マルチモーダルモデルで、動画、画像、テキスト入力を処理しテキスト出力を生成できます。

画像生成テキスト

Transformers 英語

Pix2struct Tiny Random

これはMITライセンスに基づく画像からテキストへの変換モデルで、画像の内容を記述的なテキストに変換できます。

画像生成テキスト

Florence 2 Base Ft

Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチで幅広い視覚と言語タスクを処理します。

画像生成テキスト

GemmaはGoogleが提供する一連の軽量で最先端のオープンモデルで、Geminiモデルの作成と同じ研究と技術に基づいて構築されています。

画像生成テキスト

GemmaはGoogleが提供する軽量オープンソースのマルチモーダルモデルシリーズで、Geminiと同じ技術を基に構築されており、テキストと画像の入力をサポートし、テキスト出力を生成します。

画像生成テキスト

Chexpert Mimic Cxr Findings Baseline

これはVisionEncoderDecoderアーキテクチャに基づく医療画像レポート生成モデルで、胸部X線画像から放射線学レポートテキストを生成するために特別に設計されています。

画像生成テキスト

Transformers 英語

Chexpert Mimic Cxr Impression Baseline

これは胸部X線画像に基づくテキスト生成モデルで、医学画像から放射線学的所見レポートを生成できます。

画像生成テキスト

Transformers 英語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase