# 大規模データセット

Instantid FaceID 70K
FaceID-6Mデータセットでトレーニングされた顔IDカスタマイズモデルで、テキスト記述に基づいてカスタマイズされた顔画像を生成できます。
画像生成
I
Super-shuhe
17
1
Vit Base Patch32 Clip 224.metaclip 400m
MetaCLIP-400Mデータセットで訓練された視覚言語モデルで、ゼロショット画像分類タスクをサポート
画像分類
V
timm
2,406
0
Openclip Resnet50 CC12M
MIT
ResNet50アーキテクチャとCC12Mデータセットで訓練されたOpenCLIPモデルで、ゼロショット画像分類タスクをサポートします。
画像分類
O
thaottn
13.67k
0
Languagebind Video V1.5 FT
MIT
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として利用し、マルチモーダル意味アラインメントを実現します。
マルチモーダルアライメント Transformers
L
LanguageBind
853
5
Languagebind Video FT
MIT
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として、ビデオ、赤外線、深度、音声など様々なモダリティの意味的アライメントを実現します。
マルチモーダルアライメント Transformers
L
LanguageBind
22.97k
4
Eva02 Large Patch14 Clip 336.merged2b S6b B61k
MIT
EVA02はCLIPアーキテクチャに基づく大規模な視覚-言語モデルで、ゼロショット画像分類タスクをサポートします。
テキスト生成画像
E
timm
15.78k
0
Vit Base Patch16 224 In21k
Apache-2.0
ImageNet - 21kデータセットを使って事前学習されたビジュアルTransformerモデルで、画像分類タスクに使用されます。
画像分類
V
google
2.2M
323
All Datasets V3 Mpnet Base
Apache-2.0
MPNetアーキテクチャに基づく文の埋め込みモデルで、テキストを768次元のベクトル空間にマッピングでき、意味検索や文の類似度計算に適しています。
テキスト埋め込み 英語
A
flax-sentence-embeddings
3,472
13
Wavlm Base Plus
WavLMはマイクロソフトによって開発された大規模な自己教師付き事前学習音声モデルで、16kHzサンプリングの音声オーディオを基に事前学習され、様々な音声処理タスクに適用できます。
音声認識 Transformers 英語
W
microsoft
673.32k
31
Wav2vec2 Gpt2 Wandb Grid Search
LibriSpeechデータセットに基づいて訓練された自動音声認識(ASR)モデル
音声認識 Transformers
W
sanchit-gandhi
13
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase