モデル選定

マルチモーダルトランスフォーマー

# マルチモーダルトランスフォーマー

GITはトランスフォーマーベースの画像からテキストを生成するモデルで、入力画像に基づいて記述的なテキストを生成できます。

画像生成テキスト

PyTorch 複数言語対応

Spaceexploreai Small Base Regression 27M

深層学習に基づく投資予測システムで、Transformerアーキテクチャを採用し、DeepSeep-V3とLLama3の設計構造を融合させ、株価の動向予測とテクニカル分析に使用されます。

大規模言語モデル複数言語対応

Microsoft Git Base

GITはTransformerベースの生成的画像テキスト変換モデルで、視覚コンテンツをテキスト記述に変換できます。

画像生成テキスト複数言語対応

Stable Diffusion 3.5 Large Turbo

マルチモーダル拡散トランスフォーマー（MMDiT）を基盤としたテキストから画像を生成するモデルで、敵対的拡散蒸留（ADD）技術を採用し、画像品質、レイアウト、複雑なプロンプト理解能力を向上させています。

テキスト生成画像英語

GITはTransformerベースの画像からテキストを生成するモデルで、入力画像に基づいて記述的なテキストを生成できます。

画像生成テキスト

Transformers 複数言語対応

Git Base Finetune

GITはTransformerベースの生成的画像からテキストへのモデルで、視覚的コンテンツを記述的なテキストに変換できます。

画像生成テキスト

Transformers 複数言語対応

Textcaps Teste2

GITはTransformerベースの画像からテキスト生成モデルで、大規模な画像-テキストペアで訓練され、画像キャプション生成や視覚的質問応答などのタスクを実行できます。

画像生成テキスト

Transformers 複数言語対応

artificialguybr

Git Large R Textcaps

GITは、画像キャプション生成や視覚的質問応答などのタスク向けに、CLIP画像トークンとテキストトークンの二条件トランスフォーマーデコーダーを基にしています。

画像生成テキスト

Transformers 複数言語対応

Git Large R Coco

GITはTransformerベースの生成的画像テキストモデルで、画像から記述的なテキストを生成できます。

画像生成テキスト

Transformers 複数言語対応

Git Large Vatex

GITはCLIP画像トークンとテキストトークンの条件付けに基づくトランスフォーマーデコーダーで、画像やビデオの記述生成、視覚的質問応答などのタスクに使用されます。

画像生成テキスト

Transformers 複数言語対応

Git Large Textvqa

GITはTransformerデコーダーベースの視覚言語モデルで、CLIP画像トークンとテキストトークンの二重条件付けで訓練され、TextVQAタスクに最適化されています。

画像生成テキスト

Transformers 複数言語対応

Git Large Vqav2

GITはCLIP画像トークンとテキストトークンに基づくトランスフォーマーデコーダーで、大量の画像-テキストペアで訓練され、視覚的質問応答などのタスクに適しています。

画像生成テキスト

Transformers 複数言語対応

Git Large Textcaps

GITは、画像キャプション生成や視覚的質問応答などのタスクのための、Transformerベースのデュアルコンディションデコーダーモ型です。

画像生成テキスト

Transformers 複数言語対応

GITはTransformerデコーダーベースの視覚言語モデルで、画像キャプション生成や視覚的質問応答が可能

画像生成テキスト

Transformers 複数言語対応

GITはTransformerベースの生成的画像からテキストへの変換モデルで、ベースバージョンはVATEXデータセットでファインチューニングされており、画像や動画の字幕生成などのタスクに適しています。

画像生成テキスト

Transformers 複数言語対応

GITはCLIP画像トークンとテキストトークンの双条件トランスフォーマーデコーダーで、画像からテキストへの生成タスクに使用されます

画像生成テキスト

Transformers 複数言語対応

GITはTransformerデコーダーベースの視覚言語モデルで、CLIP画像トークンとテキストトークンの条件付きトレーニングにより、画像キャプション生成や視覚的質問応答などのタスクに適しています。

画像生成テキスト

Transformers 複数言語対応

Git Base Textcaps

GITはTransformerベースの生成的画像からテキストへのモデルで、視覚的コンテンツを記述的なテキストに変換できます。

画像生成テキスト

Transformers 複数言語対応

GITはCLIP画像トークンとテキストトークンに基づくトランスフォーマーデコーダーで、画像キャプション生成や視覚的質問応答などのタスクに使用されます。

画像生成テキスト

Transformers 複数言語対応

Vision Perceiver Conv

ImageNetで事前学習された汎用視覚パーシバーモデルで、畳み込み前処理とトランスフォーマーアーキテクチャを採用し、画像分類タスクをサポート

S2t Small Mustc En Es St

英語からスペイン語へのエンドツーエンド音声翻訳のための音声テキスト変換モデル

Transformers 複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase