
世界のAIモデルにアクセス - 次世代アプリ開発を加速
汎用から専門まで - 全AIモデルを一つのプラットフォームで
フィルター
分類
制限なし大規模言語モデル画像生成音声認識テキスト埋め込み画像分類テキスト分類機械翻訳テキスト生成画像画像生成テキストシーケンスラベリングテキスト生成音声合成質問応答システム画像セグメンテーション音声分類物体検出テキスト生成ビデオ文字認識動画処理3Dビジョンマルチモーダル融合分子モデルビデオ生成テキスト対話システムタンパク質モデル音声生成気候モデルテキスト生成オーディオ物理学モデル画像の拡張話者の処理知識グラフ人の顔に関係がある音声生成テキスト姿勢推定音声分離マルチモーダルアライメントオーディオ拡張材料科学
フレームワーク
制限なしTransformersPyTorchSafetensorsTensorBoardその他
オープンソースライセンス
制限なしApache-2.0MITCCOpenrailGpl-3.0Bsd-3-clauseその他
言語
制限なし英語中国語スペイン語アラビア語フランス語ドイツ語日本語韓国語その他
23202個のモデルが条件に一致します
Nsfw Image Detection
Apache-2.0
ViTアーキテクチャに基づくNSFW画像分類モデル。ImageNet-21kデータセットで事前学習し、80,000枚の画像でファインチューニングされ、通常コンテンツとNSFWコンテンツを区別します。
画像分類
Transformers

N
Falconsai
82.4M
588
Fairface Age Image Detection
Apache-2.0
Vision Transformerアーキテクチャに基づく画像分類モデルで、ImageNet-21kデータセットで事前学習されており、多クラス画像分類タスクに適しています
画像分類
Transformers

F
dima806
76.6M
10
Clip Vit Large Patch14
CLIPはOpenAIによって開発された視覚-言語モデルで、コントラスティブラーニングを通じて画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類をサポートします
画像生成テキスト
C
openai
44.7M
1,710
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Chronos T5 Small
Apache-2.0
Chronosは言語モデルアーキテクチャに基づく事前学習済み時系列予測モデルファミリーで、量子化とスケーリングにより時系列をトークン系列に変換して訓練され、確率的予測タスクに適しています。
気候モデル
Transformers

C
amazon
22.8M
66
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Clip Vit Base Patch32
CLIPはOpenAIが開発したマルチモーダルモデルで、画像とテキストの関係を理解し、ゼロショット画像分類タスクをサポートします。
画像生成テキスト
C
openai
14.0M
666
Segmentation 3.0
MIT
これはパワーセットエンコーディングに基づく話者分割モデルで、10秒の音声クリップを処理し、複数の話者とその重複音声を識別できます。
話者の処理
S
pyannote
12.6M
445
Speaker Diarization 3.1
MIT
音声内の異なる話者を自動的に検出・分割する音声処理モデルです。
話者の処理
S
pyannote
11.7M
822
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Clipseg Rd64 Refined
Apache-2.0
CLIPSegはテキストと画像プロンプトに基づく画像セグメンテーションモデルで、ゼロショットおよびワンショット画像セグメンテーションタスクをサポートします。
画像セグメンテーション
Transformers

C
CIDAS
10.0M
122
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Segmentation
MIT
音声活動検出、重複音声検出、話者分割のための音声処理モデル
話者の処理
S
pyannote
9.2M
579
Vit Face Expression
Apache-2.0
ビジョントランスフォーマー(ViT)をファインチューニングした顔面感情認識モデルで、7種類の表情分類をサポート
人の顔に関係がある
Transformers

V
trpakov
9.2M
66
Voice Activity Detection
MIT
pyannote.audio 2.1バージョンに基づく音声活動検出モデルで、音声中の音声活動時間帯を識別するために使用されます
音声認識
V
pyannote
7.7M
181
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
Chronos Bolt Small
Apache-2.0
Chronos-BoltはT5アーキテクチャに基づく事前学習済み時系列基盤モデルのシリーズで、革新的なチャンクエンコーディングと直接多段階予測により効率的な時系列予測を実現
気候モデル
Safetensors
C
autogluon
6.2M
13
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Siglip So400m Patch14 384
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたシグモイド損失関数を採用し、画像-テキストマッチングタスクを最適化しています。
画像生成テキスト
Transformers

S
google
6.1M
526
Clip Vit Large Patch14 336
Vision Transformerアーキテクチャに基づく大規模な視覚言語事前学習モデルで、画像とテキストのクロスモーダル理解をサポートします。
テキスト生成画像
Transformers

C
openai
5.9M
241
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標を用いて訓練されています。
大規模言語モデル 複数言語対応
X
FacebookAI
5.3M
431
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
DistilBERT - base - uncasedをベースに、SST - 2感情分析データセットで微調整されたテキスト分類モデル。正解率91.3%
テキスト分類 英語
D
distilbert
5.2M
746
Dinov2 Small
Apache-2.0
DINOv2手法でトレーニングされた小型視覚Transformerモデル、自己教師あり学習で画像特徴を抽出
画像分類
Transformers

D
facebook
5.0M
31
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
これはポルトガル語音声認識タスク向けにファインチューニングされたXLSR-53大規模モデルで、Common Voice 6.1データセットでトレーニングされ、ポルトガル語音声からテキストへの変換をサポートします。
音声認識 その他
W
jonatasgrosman
4.9M
32
Vit Base Patch16 224
Apache-2.0
ImageNet - 21kで事前学習し、ImageNetでファインチューニングしたビジュアルトランスフォーマーモデルで、画像分類タスクに使用されます。
画像分類
V
google
4.8M
775
Chronos Bolt Base
Apache-2.0
Chronos-Boltは一連の事前学習済み時系列予測モデルで、ゼロショット予測をサポートし、精度が高く推論速度も速いです。
気候モデル
C
autogluon
4.7M
22
Whisper Large V3
Apache-2.0
WhisperはOpenAIが提案した先進的な自動音声認識(ASR)および音声翻訳モデルで、500万時間以上の注釈付きデータで訓練されており、強力なデータセット間およびドメイン間の汎化能力を持っています。
音声認識 複数言語対応
W
openai
4.6M
4,321
Clip Vit Base Patch16
CLIPはOpenAIが開発したマルチモーダルモデルで、コントラスティブラーニングにより画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類能力を実現します。
画像生成テキスト
C
openai
4.6M
119
Whisper Large V3 Turbo
MIT
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、ゼロショット設定において強力な汎化能力を発揮します。
音声認識
Transformers 複数言語対応

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたロシア語音声認識モデル、16kHzサンプリングレートの音声入力をサポート
音声認識 その他
W
jonatasgrosman
3.9M
54
Bart Large Cnn
MIT
英語コーパスで事前学習されたBARTモデルで、CNNデイリーメールデータセットに特化してファインチューニングされ、テキスト要約タスクに適しています。
テキスト生成 英語
B
facebook
3.8M
1,364
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングした中国語音声認識モデルで、16kHzサンプリングレートの音声入力をサポートしています。
音声認識 中国語
W
jonatasgrosman
3.8M
110
Fashion Clip
MIT
FashionCLIPはCLIPを基に開発された視覚言語モデルで、ファッション分野に特化してファインチューニングされ、汎用的な製品表現を生成可能です。
テキスト生成画像
Transformers 英語

F
patrickjohncyh
3.8M
222
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Stable Diffusion V1 5
Openrail
Stable Diffusionは潜在的なテキストから画像への拡散モデルで、任意のテキスト入力からリアルな画像を生成できます。
画像生成
S
stable-diffusion-v1-5
3.7M
518
Bart Large Mnli
MIT
BART-largeアーキテクチャに基づき、MultiNLIデータセットでファインチューニングされたゼロショット分類モデル
大規模言語モデル
B
facebook
3.7M
1,364
T5 Small
Apache-2.0
T5-SmallはGoogleが開発した6000万パラメータのテキスト変換モデルで、統一されたテキストからテキストへのフレームワークを用いて様々なNLPタスクを処理します。
大規模言語モデル 複数言語対応
T
google-t5
3.7M
450
Esm2 T36 3B UR50D
MIT
ESM-2はマスク言語モデリング目標で訓練された次世代タンパク質モデルで、タンパク質配列を入力とする様々な下流タスクのファインチューニングに適しています。
タンパク質モデル
Transformers

E
facebook
3.5M
22