世界のAIモデルにアクセス - 次世代アプリ開発を加速

汎用から専門まで - 全AIモデルを一つのプラットフォームで

人気

最新

いいね数高

フィルター

商用モデル

オープンソースモデル

分類

フレームワーク

オープンソースライセンス

言語

23202個のモデルが条件に一致します

人気

最新

いいね数高

Nsfw Image Detection

ViTアーキテクチャに基づくNSFW画像分類モデル。ImageNet-21kデータセットで事前学習し、80,000枚の画像でファインチューニングされ、通常コンテンツとNSFWコンテンツを区別します。

Fairface Age Image Detection

Vision Transformerアーキテクチャに基づく画像分類モデルで、ImageNet-21kデータセットで事前学習されており、多クラス画像分類タスクに適しています

Clip Vit Large Patch14

CLIPはOpenAIによって開発された視覚-言語モデルで、コントラスティブラーニングを通じて画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類をサポートします

画像生成テキスト

Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。

大規模言語モデル複数言語対応

Chronos T5 Small

Chronosは言語モデルアーキテクチャに基づく事前学習済み時系列予測モデルファミリーで、量子化とスケーリングにより時系列をトークン系列に変換して訓練され、確率的予測タスクに適しています。

気候モデル

マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。

大規模言語モデル英語

Clip Vit Base Patch32

CLIPはOpenAIが開発したマルチモーダルモデルで、画像とテキストの関係を理解し、ゼロショット画像分類タスクをサポートします。

画像生成テキスト

Segmentation 3.0

これはパワーセットエンコーディングに基づく話者分割モデルで、10秒の音声クリップを処理し、複数の話者とその重複音声を識別できます。

話者の処理

Speaker Diarization 3.1

音声内の異なる話者を自動的に検出・分割する音声処理モデルです。

話者の処理

Distilbert Base Uncased

DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。

大規模言語モデル英語

Clipseg Rd64 Refined

CLIPSegはテキストと画像プロンプトに基づく画像セグメンテーションモデルで、ゼロショットおよびワンショット画像セグメンテーションタスクをサポートします。

画像セグメンテーション

Llama 3.1 8B Instruct GGUF

Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。

大規模言語モデル英語

Xlm Roberta Base

XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。

大規模言語モデル複数言語対応

Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。

大規模言語モデル英語

音声活動検出、重複音声検出、話者分割のための音声処理モデル

話者の処理

Vit Face Expression

ビジョントランスフォーマー（ViT）をファインチューニングした顔面感情認識モデルで、7種類の表情分類をサポート

人の顔に関係がある

Voice Activity Detection

pyannote.audio 2.1バージョンに基づく音声活動検出モデルで、音声中の音声活動時間帯を識別するために使用されます

OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。

大規模言語モデル英語

Chronos Bolt Small

Chronos-BoltはT5アーキテクチャに基づく事前学習済み時系列基盤モデルのシリーズで、革新的なチャンクエンコーディングと直接多段階予測により効率的な時系列予測を実現

気候モデル

transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能

大規模言語モデル

Siglip So400m Patch14 384

SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたシグモイド損失関数を採用し、画像-テキストマッチングタスクを最適化しています。

画像生成テキスト

Clip Vit Large Patch14 336

Vision Transformerアーキテクチャに基づく大規模な視覚言語事前学習モデルで、画像とテキストのクロスモーダル理解をサポートします。

テキスト生成画像

Llama 3.1 8B Instruct

Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。

大規模言語モデル

Transformers 複数言語対応

T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。

大規模言語モデル複数言語対応

Xlm Roberta Large

XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標を用いて訓練されています。

大規模言語モデル複数言語対応

Distilbert Base Uncased Finetuned Sst 2 English

DistilBERT - base - uncasedをベースに、SST - 2感情分析データセットで微調整されたテキスト分類モデル。正解率91.3%

テキスト分類英語

DINOv2手法でトレーニングされた小型視覚Transformerモデル、自己教師あり学習で画像特徴を抽出

Wav2vec2 Large Xlsr 53 Portuguese

これはポルトガル語音声認識タスク向けにファインチューニングされたXLSR-53大規模モデルで、Common Voice 6.1データセットでトレーニングされ、ポルトガル語音声からテキストへの変換をサポートします。

音声認識その他

Vit Base Patch16 224

ImageNet - 21kで事前学習し、ImageNetでファインチューニングしたビジュアルトランスフォーマーモデルで、画像分類タスクに使用されます。

Chronos Bolt Base

Chronos-Boltは一連の事前学習済み時系列予測モデルで、ゼロショット予測をサポートし、精度が高く推論速度も速いです。

気候モデル

Whisper Large V3

WhisperはOpenAIが提案した先進的な自動音声認識(ASR)および音声翻訳モデルで、500万時間以上の注釈付きデータで訓練されており、強力なデータセット間およびドメイン間の汎化能力を持っています。

音声認識複数言語対応

Clip Vit Base Patch16

CLIPはOpenAIが開発したマルチモーダルモデルで、コントラスティブラーニングにより画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類能力を実現します。

画像生成テキスト

Whisper Large V3 Turbo

WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、ゼロショット設定において強力な汎化能力を発揮します。

Transformers 複数言語対応

Wav2vec2 Large Xlsr 53 Russian

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたロシア語音声認識モデル、16kHzサンプリングレートの音声入力をサポート

音声認識その他

英語コーパスで事前学習されたBARTモデルで、CNNデイリーメールデータセットに特化してファインチューニングされ、テキスト要約タスクに適しています。

テキスト生成英語

Wav2vec2 Large Xlsr 53 Chinese Zh Cn

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングした中国語音声認識モデルで、16kHzサンプリングレートの音声入力をサポートしています。

音声認識中国語

FashionCLIPはCLIPを基に開発された視覚言語モデルで、ファッション分野に特化してファインチューニングされ、汎用的な製品表現を生成可能です。

テキスト生成画像

Transformers 英語

Jina Embeddings V3

Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。

テキスト埋め込み

Transformers 複数言語対応

Stable Diffusion V1 5

Stable Diffusionは潜在的なテキストから画像への拡散モデルで、任意のテキスト入力からリアルな画像を生成できます。

stable-diffusion-v1-5

Bart Large Mnli

BART-largeアーキテクチャに基づき、MultiNLIデータセットでファインチューニングされたゼロショット分類モデル

大規模言語モデル

T5-SmallはGoogleが開発した6000万パラメータのテキスト変換モデルで、統一されたテキストからテキストへのフレームワークを用いて様々なNLPタスクを処理します。

大規模言語モデル複数言語対応

Esm2 T36 3B UR50D

ESM-2はマスク言語モデリング目標で訓練された次世代タンパク質モデルで、タンパク質配列を入力とする様々な下流タスクのファインチューニングに適しています。

タンパク質モデル

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase