モデル選定

汎用視覚表現

# 汎用視覚表現

Webssl Dino1b Full2b 224

これはDINOv2自己教師あり学習により20億のウェブ画像でトレーニングされた10億パラメータのVision Transformerモデルで、言語監督なしで視覚表現を学習できます。

Vit Large Patch14 Dinov2.lvd142m

視覚Transformer（ViT）ベースの画像特徴モデルで、自己教師ありDINOv2手法を用いてLVD-142Mデータセットで事前学習済み。

Sam2 Hiera Small.fb R896 2pt1

timmライブラリに基づくSAM2（HieraDet画像エンコーダーのみ）の重みで、FacebookのHiera小型モデルに由来します。

画像セグメンテーション

CLIP ViT B 16 CommonPool.L.basic S1b B8k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.M.clip S128m B4k

CLIPアーキテクチャに基づくゼロショット画像分類モデルで、汎用プーリング機能をサポート

画像生成テキスト

CLIP ViT B 32 CommonPool.M.text S128m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.M S128m B4k

CLIPアーキテクチャに基づくゼロショット画像分類モデル、汎用視覚-言語タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.S.text S13m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.S.basic S13m B4k

CLIPアーキテクチャに基づく視覚-言語モデル、ゼロショット画像分類タスクをサポート

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase