モデル選定

オープンドメイン視覚理解

# オープンドメイン視覚理解

Vit Giant Patch14 Clip 224.laion2b

CLIPアーキテクチャに基づく視覚Transformerモデルで、画像特徴抽出のために設計され、laion2Bデータセットで学習

Vit Base Patch16 Clip 224.datacompxl

CLIPアーキテクチャに基づくビジョントランスフォーマーモデルで、画像特徴抽出に特化しており、ViT-B/16構造を採用しDataComp XLデータセットでトレーニング

Vit Large Patch14 Clip 224.laion400m E31

LAION-400Mデータセットで学習されたVision Transformer大型モデル、ゼロショット画像分類タスクをサポート

Clip Vit Large Patch14

CLIPはOpenAIによって開発された視覚-言語モデルで、コントラスティブラーニングを通じて画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類をサポートします

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase