モデル選定

クロスモーダル理解

# クロスモーダル理解

Qwen2.5 Omni 7B GGUF

Qwen2.5-Omni-7B-GGUF は Qwen2.5-Omni-7B モデルの GGUF フォーマット版で、テキスト、音声、画像を含むマルチモーダル入力をサポートします。

大規模言語モデル英語

Internvl3 78B Hf

InternVL3 は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、ビデオ、テキスト入力をサポートします。

画像生成テキスト

Transformers その他

Cephalo Gemma 3 4b It 04 16 2025

Cephalo-Gemma-3-4b は生体材料とクモの糸の分析に特化した視覚言語モデルで、Gemma アーキテクチャを基にファインチューニングされています。

画像生成テキスト

Qwen2.5 Omni 7B

Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなど様々なモダリティを認識し、ストリーミング方式でテキストや自然な音声レスポンスを生成できます。

マルチモーダル融合

Transformers 英語

Centurio はオープンソースの多言語大規模視覚言語モデルで、100言語をサポートし、画像テキストからテキストへの処理能力を備えています。

画像生成テキスト

Transformers 複数言語対応

VITA-1.5はマルチモーダルインタラクションモデルで、GPT-4oレベルのリアルタイム視覚と音声インタラクション能力を実現することを目的としています。

Aimv2 Large Patch14 224 Distilled

AIMv2はマルチモーダル自己回帰目標事前学習による視覚モデルシリーズで、マルチモーダル理解ベンチマークで優れた性能を発揮します。

Thaicapgen Clip Gpt2

CLIPエンコーダーとGPT2アーキテクチャに基づくエンコーダー-デコーダーモデルで、タイ語の画像キャプションを生成

画像生成テキストその他

VILA-Uは視覚言語理解と生成タスクを統一的に処理する基盤モデルで、単一の自己回帰フレームワークによる効率的なマルチモーダル処理を実現します。

テキスト生成画像

AA Chameleon 7b Plus

これは強力なテキストと画像の交互入出力モデルで、アライメント万能アルゴリズムによる深いアライメントを行い、画像生成能力と人間の嗜好へのアライメント能力を向上させています。

テキスト生成画像

Transformers 英語

MetaカメレオンはFAIRが開発したマルチモーダル早期融合基盤モデルで、画像とテキストのマルチモーダル処理をサポートします。

マルチモーダル融合

このモデルはApache-2.0ライセンスに基づく画像からテキストへの変換モデルで、画像の内容をテキスト記述に変換できます。

CSUMLMはマルチモーダルAIエンジンと大規模言語モデルの利点を統合した最先端の人工知能システムで、マルチモーダル処理、複雑な言語理解、リアルタイム学習能力を備えています。

マルチモーダル融合

Transformers 複数言語対応

Finetuned Blip Chest Xrays

深層学習に基づく画像からテキストへの変換モデルで、入力画像に対して記述的なキャプションを生成できます。

画像生成テキスト

Transformers 英語

Blip Image Captioning Large

BLIPは統一された視覚言語事前学習フレームワークで、画像キャプション生成と理解タスクに優れており、ガイド付きアノテーション戦略によりウェブデータを効率的に活用

画像生成テキスト

General Image Captioning

これはApache-2.0ライセンスに基づく画像からテキストへの変換モデルで、画像の内容をテキスト記述に変換できます。

Transformers その他

CLIP ViT B 16 DataComp.XL S13b B90k

これはDataComp-1BデータセットでOpenCLIPを使用して訓練されたCLIP ViT-B/16モデルで、主にゼロショット画像分類と画像テキスト検索に使用されます。

テキスト生成画像

Pix2struct Docvqa Base

Pix2Structは画像エンコーダ-テキストデコーダモデルで、画像-テキストペアで訓練され、画像キャプション生成や視覚QAなど複数のタスクをサポートします。

画像生成テキスト

Transformers 複数言語対応

Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k

これはMITライセンスに基づく画像テキスト変換モデルで、画像の内容をテキスト説明に変換できます。

画像生成テキスト

Vinvl Base Image Captioning

マイクロソフトのVinVL基礎事前学習モデルで、画像キャプション生成タスク向けに設計されており、強力な視覚-言語理解能力を備えています。

画像生成テキスト

michelecafagna26

Chinese Clip Vit Large Patch14 336px

中国語CLIPは約2億組の中国語画像テキストペアデータセットに基づくCLIPの簡易実装で、ViT-L/14@336pxを画像エンコーダー、RoBERTa-wwm-baseをテキストエンコーダーとして採用しています。

テキスト生成画像

韓国語と英語をサポートする事前学習済み視覚エンコーダテキストデコーダモデル

画像生成テキスト

Transformers 複数言語対応

molt5-base は T5 アーキテクチャに基づくモデルで、分子と自然言語間の翻訳タスクに特化しています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase