モデル選定

マルチモーダル変換

# マルチモーダル変換

Index Anisora 5B Diffusers

Diffusersで実装された画像生成動画モデル、5Bパラメータ規模

テキスト生成ビデオ

Hunyuanvideo I2V

TencentのHunyuanVideo-I2Vは、Diffusersベースの画像から動画への変換モデルで、静止画像を動画に変換できます。

画像生成テキスト

hunyuanvideo-community

Google.gemma 3 4b Pt GGUF

これは画像テキストをテキストに変換するモデルで、google/gemma-3-4b-ptの量化バージョンに基づいており、知識を大衆に共有することを目指しています。

大規模言語モデル

Minicpm O 2 6 GGUF

MiniCPM-o-2_6 はマルチモーダル変換モデルで、複数の言語をサポートし、様々なタスクに適しています。

テキスト生成画像その他

これは画像テキストからテキストへの変換モデルで、画像とテキスト入力を処理し、対応するテキスト出力を生成できます。

テキスト生成画像

Ioskef 23 11 06

これはOMEGA LabsとBittensorが協力して開発した任意から任意へのサブネット向けのモデルチェックポイントで、汎用人工知能タスクを実現することを目的としています。

大規模言語モデルその他

Kljrklqejr 23 11 24

OMEGA LabsとBittensorが共同開発した任意から任意への変換モデルで、人工汎用知能分野に焦点を当てています。

大規模言語モデルその他

Kljrklqejr 23 11 23

OMEGA LabsとBittensorが共同開発したAny-to-Anyモデルで、複数のタスク変換をサポート

大規模言語モデルその他

Ioskef 23 11 05

OMEGA LabsとBittensorが協力して開発した任意から任意サブネットモデルで、汎用人工知能タスクに特化しています。

大規模言語モデルその他

Vit GPT2 Image Captioning Model

ViT-GPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像を記述テキストに変換可能

画像生成テキスト

Vchitect 2.0 2B

Vchitect-2.0はテキストから動画生成や画像から動画生成タスクに特化した、動画拡散モデルを拡張するための並列Transformerモデルです。

Sd3 Long Captioner

PaliGemma 224x224をgoogle/docciとgoogle/imageinwordsデータセットで微調整したバージョンで、画像テキストからテキストへの変換に使用されます。

画像生成テキスト

Transformers 複数言語対応

4Mはトークン化とマスキング技術によりマルチモーダル拡張を実現する'任意から任意へ'の基盤モデルトレーニングフレームワーク

マルチモーダル融合

これはtransformersベースの画像からテキストへの変換モデルで、具体的な機能はさらに情報を追加する必要があります

画像生成テキスト

4M 7 SR L CC12M

4Mは拡張可能なマルチモーダルマスクモデリングフレームワークで、任意から任意へのモーダル変換をサポートし、数十のモーダルとタスクをカバーします。

マルチモーダル融合

4Mは'任意から任意'のマルチモーダル基盤モデルを訓練するフレームワークで、トークン化とマスキング技術により複数の異なるモーダルに拡張可能です。

マルチモーダル融合

Spydazwebai Image Projectors

Transformersライブラリをベースにした画像からテキストへの変換モデルで、画像の内容を記述的なテキストに変換し、アート分野に適しています。

画像生成テキスト複数言語対応

Hashtaggenerater

Flickr30kは、画像からテキストへのタスクのための英語データセットで、画像キャプション生成モデルのトレーニングや評価によく使用されます。

画像生成テキスト

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase