
世界のAIモデルにアクセス - 次世代アプリ開発を加速
汎用から専門まで - 全AIモデルを一つのプラットフォームで
フィルター
分類
制限なし大規模言語モデル画像生成音声認識テキスト埋め込み画像分類テキスト分類機械翻訳テキスト生成画像画像生成テキストシーケンスラベリングテキスト生成音声合成質問応答システム画像セグメンテーション音声分類物体検出テキスト生成ビデオ文字認識動画処理3Dビジョンマルチモーダル融合分子モデルビデオ生成テキスト対話システムタンパク質モデル音声生成気候モデルテキスト生成オーディオ物理学モデル画像の拡張話者の処理知識グラフ人の顔に関係がある音声生成テキスト姿勢推定音声分離マルチモーダルアライメントオーディオ拡張材料科学
フレームワーク
制限なしTransformersPyTorchSafetensorsTensorBoardその他
オープンソースライセンス
制限なしApache-2.0MITCCOpenrailGpl-3.0Bsd-3-clauseその他
言語
制限なし英語中国語スペイン語アラビア語フランス語ドイツ語日本語韓国語その他
10007個のモデルが条件に一致します
Nsfw Image Detection
Apache-2.0
ViTアーキテクチャに基づくNSFW画像分類モデル。ImageNet-21kデータセットで事前学習し、80,000枚の画像でファインチューニングされ、通常コンテンツとNSFWコンテンツを区別します。
画像分類
Transformers

N
Falconsai
82.4M
588
Fairface Age Image Detection
Apache-2.0
Vision Transformerアーキテクチャに基づく画像分類モデルで、ImageNet-21kデータセットで事前学習されており、多クラス画像分類タスクに適しています
画像分類
Transformers

F
dima806
76.6M
10
Clip Vit Large Patch14
CLIPはOpenAIによって開発された視覚-言語モデルで、コントラスティブラーニングを通じて画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類をサポートします
画像生成テキスト
C
openai
44.7M
1,710
Chronos T5 Small
Apache-2.0
Chronosは言語モデルアーキテクチャに基づく事前学習済み時系列予測モデルファミリーで、量子化とスケーリングにより時系列をトークン系列に変換して訓練され、確率的予測タスクに適しています。
気候モデル
Transformers

C
amazon
22.8M
66
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Clipseg Rd64 Refined
Apache-2.0
CLIPSegはテキストと画像プロンプトに基づく画像セグメンテーションモデルで、ゼロショットおよびワンショット画像セグメンテーションタスクをサポートします。
画像セグメンテーション
Transformers

C
CIDAS
10.0M
122
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Vit Face Expression
Apache-2.0
ビジョントランスフォーマー(ViT)をファインチューニングした顔面感情認識モデルで、7種類の表情分類をサポート
人の顔に関係がある
Transformers

V
trpakov
9.2M
66
Chronos Bolt Small
Apache-2.0
Chronos-BoltはT5アーキテクチャに基づく事前学習済み時系列基盤モデルのシリーズで、革新的なチャンクエンコーディングと直接多段階予測により効率的な時系列予測を実現
気候モデル
Safetensors
C
autogluon
6.2M
13
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Siglip So400m Patch14 384
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたシグモイド損失関数を採用し、画像-テキストマッチングタスクを最適化しています。
画像生成テキスト
Transformers

S
google
6.1M
526
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標を用いて訓練されています。
大規模言語モデル 複数言語対応
X
FacebookAI
5.3M
431
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
DistilBERT - base - uncasedをベースに、SST - 2感情分析データセットで微調整されたテキスト分類モデル。正解率91.3%
テキスト分類 英語
D
distilbert
5.2M
746
Dinov2 Small
Apache-2.0
DINOv2手法でトレーニングされた小型視覚Transformerモデル、自己教師あり学習で画像特徴を抽出
画像分類
Transformers

D
facebook
5.0M
31
Vit Base Patch16 224
Apache-2.0
ImageNet - 21kで事前学習し、ImageNetでファインチューニングしたビジュアルトランスフォーマーモデルで、画像分類タスクに使用されます。
画像分類
V
google
4.8M
775
Chronos Bolt Base
Apache-2.0
Chronos-Boltは一連の事前学習済み時系列予測モデルで、ゼロショット予測をサポートし、精度が高く推論速度も速いです。
気候モデル
C
autogluon
4.7M
22
Whisper Large V3
Apache-2.0
WhisperはOpenAIが提案した先進的な自動音声認識(ASR)および音声翻訳モデルで、500万時間以上の注釈付きデータで訓練されており、強力なデータセット間およびドメイン間の汎化能力を持っています。
音声認識 複数言語対応
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、ゼロショット設定において強力な汎化能力を発揮します。
音声認識
Transformers 複数言語対応

W
openai
4.0M
2,317
Bart Large Cnn
MIT
英語コーパスで事前学習されたBARTモデルで、CNNデイリーメールデータセットに特化してファインチューニングされ、テキスト要約タスクに適しています。
テキスト生成 英語
B
facebook
3.8M
1,364
Fashion Clip
MIT
FashionCLIPはCLIPを基に開発された視覚言語モデルで、ファッション分野に特化してファインチューニングされ、汎用的な製品表現を生成可能です。
テキスト生成画像
Transformers 英語

F
patrickjohncyh
3.8M
222
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Stable Diffusion V1 5
Openrail
Stable Diffusionは潜在的なテキストから画像への拡散モデルで、任意のテキスト入力からリアルな画像を生成できます。
画像生成
S
stable-diffusion-v1-5
3.7M
518
Bart Large Mnli
MIT
BART-largeアーキテクチャに基づき、MultiNLIデータセットでファインチューニングされたゼロショット分類モデル
大規模言語モデル
B
facebook
3.7M
1,364
T5 Small
Apache-2.0
T5-SmallはGoogleが開発した6000万パラメータのテキスト変換モデルで、統一されたテキストからテキストへのフレームワークを用いて様々なNLPタスクを処理します。
大規模言語モデル 複数言語対応
T
google-t5
3.7M
450
Flan T5 Base
Apache-2.0
FLAN-T5はT5モデルを指令微調整で最適化した言語モデルで、多言語タスクの処理をサポートし、同じパラメータ数で元のT5モデルよりも性能が優れています。
大規模言語モデル 複数言語対応
F
google
3.3M
862
Albert Base V2
Apache-2.0
ALBERTはTransformerアーキテクチャに基づく軽量版の事前学習言語モデルで、パラメータ共有メカニズムによりメモリ使用量を削減し、英語のテキスト処理タスクに適しています。
大規模言語モデル 英語
A
albert
3.1M
121
Distilbert Base Multilingual Cased
Apache-2.0
DistilBERTはBERTベース多言語モデルの蒸留バージョンで、BERTの97%の性能を維持しながら、パラメータが少なく、速度が速いです。104種類の言語をサポートし、様々な自然言語処理タスクに適しています。
大規模言語モデル
Transformers 複数言語対応

D
distilbert
2.8M
187
Distilgpt2
Apache-2.0
DistilGPT2はGPT - 2の軽量級蒸留バージョンで、8200万のパラメータを持ち、GPT - 2の核心的なテキスト生成能力を保持しながら、サイズが小さく、速度が速い。
大規模言語モデル 英語
D
distilbert
2.7M
527
Xlm Roberta Base Language Detection
MIT
XLM-RoBERTaベースの多言語検出モデル、20言語のテキスト分類をサポート
テキスト分類
Transformers 複数言語対応

X
papluca
2.7M
333
Table Transformer Detection
MIT
DETRアーキテクチャに基づくテーブル検出モデルで、非構造化文書からテーブルを抽出するために特別に設計されています
物体検出
Transformers

T
microsoft
2.6M
349
Blip Image Captioning Large
Bsd-3-clause
BLIPは統一された視覚-言語事前学習フレームワークで、画像キャプション生成タスクに優れており、条件付きおよび無条件の画像キャプション生成をサポートします。
画像生成テキスト
Transformers

B
Salesforce
2.5M
1,312
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Mms 300m 1130 Forced Aligner
Hugging Faceの事前学習モデルを基にしたテキストと音声の強制アライメントツールで、多言語対応かつメモリ効率に優れています
音声認識
Transformers 複数言語対応

M
MahmoudAshraf
2.5M
50
Llama 3.2 1B Instruct
Llama 3.2はMetaが開発した多言語大規模言語モデルシリーズで、1Bおよび3B規模の事前学習および命令チューニング生成モデルを含み、多言語対話シナリオ向けに最適化され、インテリジェント検索と要約タスクをサポートします。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
2.4M
901
Stable Diffusion Xl Base 1.0
SDXL 1.0は拡散ベースのテキストから画像を生成するモデルで、専門家統合の潜在拡散プロセスを採用し、高解像度画像生成をサポート
画像生成
S
stabilityai
2.4M
6,545
Qwen2.5 0.5B Instruct
Apache-2.0
Gensyn強化学習群専用に設計された0.5Bパラメータの命令微調整モデルで、ローカルでの微調整トレーニングをサポート
大規模言語モデル
Transformers 英語

Q
Gensyn
2.4M
5
Vit Base Patch16 224 In21k
Apache-2.0
ImageNet - 21kデータセットを使って事前学習されたビジュアルTransformerモデルで、画像分類タスクに使用されます。
画像分類
V
google
2.2M
323
Indonesian Roberta Base Posp Tagger
MIT
これはインドネシア語RoBERTaモデルをファインチューニングした品詞タグ付けモデルで、indonluデータセットで訓練され、インドネシア語テキストの品詞タグ付けタスクに使用されます。
シーケンスラベリング
Transformers その他

I
w11wo
2.2M
7