モデル選定

大規模データセット

# 大規模データセット

Instantid FaceID 70K

FaceID-6Mデータセットでトレーニングされた顔IDカスタマイズモデルで、テキスト記述に基づいてカスタマイズされた顔画像を生成できます。

Vit Base Patch32 Clip 224.metaclip 400m

MetaCLIP-400Mデータセットで訓練された視覚言語モデルで、ゼロショット画像分類タスクをサポート

Openclip Resnet50 CC12M

ResNet50アーキテクチャとCC12Mデータセットで訓練されたOpenCLIPモデルで、ゼロショット画像分類タスクをサポートします。

Languagebind Video V1.5 FT

LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として利用し、マルチモーダル意味アラインメントを実現します。

マルチモーダルアライメント

Languagebind Video FT

LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として、ビデオ、赤外線、深度、音声など様々なモダリティの意味的アライメントを実現します。

マルチモーダルアライメント

Eva02 Large Patch14 Clip 336.merged2b S6b B61k

EVA02はCLIPアーキテクチャに基づく大規模な視覚-言語モデルで、ゼロショット画像分類タスクをサポートします。

テキスト生成画像

Vit Base Patch16 224 In21k

ImageNet - 21kデータセットを使って事前学習されたビジュアルTransformerモデルで、画像分類タスクに使用されます。

All Datasets V3 Mpnet Base

MPNetアーキテクチャに基づく文の埋め込みモデルで、テキストを768次元のベクトル空間にマッピングでき、意味検索や文の類似度計算に適しています。

テキスト埋め込み英語

flax-sentence-embeddings

Wavlm Base Plus

WavLMはマイクロソフトによって開発された大規模な自己教師付き事前学習音声モデルで、16kHzサンプリングの音声オーディオを基に事前学習され、様々な音声処理タスクに適用できます。

Transformers 英語

Wav2vec2 Gpt2 Wandb Grid Search

LibriSpeechデータセットに基づいて訓練された自動音声認識(ASR)モデル

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase