モデル選定

クロスモーダル変換

# クロスモーダル変換

Wan2.1 T2V 14B FusionX VACE GGUF

これはテキストからビデオへの量子化モデルで、特定の基礎モデルに基づいて量子化変換が行われ、さまざまなビデオ生成タスクをサポートします。

テキスト生成ビデオ英語

Magma-8BはGGUF形式の画像テキストからテキストへの変換モデルで、マルチモーダルタスク処理に適しています。

画像生成テキスト

Hicode R1 Distill Gemma 12B Q8.GGUF

Apache-2.0ライセンスに基づく画像テキスト変換モデルで、画像からテキスト情報を抽出し編集可能なテキスト形式に変換できます。

画像生成テキスト

X2Iはマルチモーダル拡散Transformerモデルで、テキスト、画像、動画、音声、音声など複数の入力モダリティを画像出力に変換できます。

テキスト生成画像その他

Chitrarthは多言語視覚言語モデルで、視覚と言語を結びつけることを目的としており、特にインドの多様な言語のサポートに重点を置いています。

画像生成テキスト複数言語対応

krutrim-ai-labs

Image Captioning Vit Gpt2 Flick8k

このモデルは入力された画像を記述的なテキストに変換することができ、様々なシーンでの画像理解タスクに適用できます。

画像生成テキスト

Best Model ViTB16 GPT2

ビジョントランスフォーマー(ViT)とGPT-2を基にしたクロスモーダルモデルで、入力画像に対する自然言語の説明を生成可能

画像生成テキスト

Transformers 複数言語対応

Git Base Minecraft

これは視覚ベースの画像テキスト変換モデルで、画像の説明文を生成できます。

Transformers 複数言語対応

Seamless M4t V2 Large

SeamlessM4T v2 は Facebook がリリースした大規模多言語マルチモーダル機械翻訳モデルで、約100言語の音声とテキスト翻訳をサポートしています。

テキスト生成オーディオ

Transformers 複数言語対応

Pix2struct Tiny Random

これはMITライセンスに基づく画像からテキストへの変換モデルで、画像の内容を記述的なテキストに変換できます。

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase