Instantid FaceID 70K
FaceID-6Mデータセットでトレーニングされた顔IDカスタマイズモデルで、テキスト記述に基づいてカスタマイズされた顔画像を生成できます。
画像生成
I
Super-shuhe
17
1
Vit Base Patch32 Clip 224.metaclip 400m
MetaCLIP-400Mデータセットで訓練された視覚言語モデルで、ゼロショット画像分類タスクをサポート
画像分類
V
timm
2,406
0
Openclip Resnet50 CC12M
MIT
ResNet50アーキテクチャとCC12Mデータセットで訓練されたOpenCLIPモデルで、ゼロショット画像分類タスクをサポートします。
画像分類
O
thaottn
13.67k
0
Languagebind Video V1.5 FT
MIT
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として利用し、マルチモーダル意味アラインメントを実現します。
マルチモーダルアライメント
Transformers

L
LanguageBind
853
5
Languagebind Video FT
MIT
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として、ビデオ、赤外線、深度、音声など様々なモダリティの意味的アライメントを実現します。
マルチモーダルアライメント
Transformers

L
LanguageBind
22.97k
4
Eva02 Large Patch14 Clip 336.merged2b S6b B61k
MIT
EVA02はCLIPアーキテクチャに基づく大規模な視覚-言語モデルで、ゼロショット画像分類タスクをサポートします。
テキスト生成画像
E
timm
15.78k
0
Vit Base Patch16 224 In21k
Apache-2.0
ImageNet - 21kデータセットを使って事前学習されたビジュアルTransformerモデルで、画像分類タスクに使用されます。
画像分類
V
google
2.2M
323
All Datasets V3 Mpnet Base
Apache-2.0
MPNetアーキテクチャに基づく文の埋め込みモデルで、テキストを768次元のベクトル空間にマッピングでき、意味検索や文の類似度計算に適しています。
テキスト埋め込み 英語
A
flax-sentence-embeddings
3,472
13
Wavlm Base Plus
WavLMはマイクロソフトによって開発された大規模な自己教師付き事前学習音声モデルで、16kHzサンプリングの音声オーディオを基に事前学習され、様々な音声処理タスクに適用できます。
音声認識
Transformers 英語

W
microsoft
673.32k
31
Wav2vec2 Gpt2 Wandb Grid Search
LibriSpeechデータセットに基づいて訓練された自動音声認識(ASR)モデル
音声認識
Transformers

W
sanchit-gandhi
13
0
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98