# 自己教師あり学習

Rad Dino
その他
自己教師あり学習DINOv2で訓練された視覚Transformerモデル、胸部X線画像のエンコーディング専用
画像分類 Transformers
R
microsoft
411.96k
48
Resencl OpenMind MAE
3D医療画像データ向け初の包括的な自己教師あり学習ベンチマーク研究モデルで、複数の事前学習チェックポイントを提供
3Dビジョン
R
AnonRes
20
0
Webssl Dino2b Heavy2b 224
20億パラメータの自己教師あり視覚Transformerモデル、厳選されたウェブ画像データでトレーニングされ、特に図表とテキスト理解能力を最適化
画像分類 Transformers
W
facebook
24
0
Dinov2 Base ONNX
これはfacebook/dinov2-baseモデルのONNXフォーマット版で、コンピュータビジョンタスクに適しています。
Transformers
D
onnx-community
19
0
Midnight
MIT
Midnight-12kは病理学の基礎モデルで、少量データでの自己教師あり学習により、先進モデルに匹敵する性能を発揮
画像分類 Safetensors 英語
M
kaiko-ai
516
4
Izanami Wav2vec2 Large
その他
大規模な日本のテレビ放送音声データを用いて事前学習された日本語wav2vec2.0 Largeモデル
音声認識 日本語
I
imprt
89
1
Kushinada Hubert Base
Apache-2.0
62,215時間の日本のテレビ放送音声データに基づいて事前学習された日本語音声特徴抽出モデル
音声認識 日本語
K
imprt
1,922
1
AV HuBERT MuAViC Ru
AV-HuBERTは視聴音声認識モデルで、MuAViC多言語視聴コーパスで訓練され、音声と視覚モダリティを組み合わせて頑健な性能を実現します。
音声生成テキスト Transformers
A
nguyenvulebinh
91
1
Rnafm
非コードRNAデータに基づき、マスク言語モデリング(MLM)目標で事前学習されたRNA基礎モデル
タンパク質モデル その他
R
multimolecule
6,791
1
Dna2vec
MIT
Transformerアーキテクチャに基づくDNA配列埋め込みモデル、配列アラインメントとゲノミクス応用をサポート
分子モデル Transformers
D
roychowdhuryresearch
557
1
Voc2vec As Pt
Apache-2.0
voc2vecは非言語人間データ専用に設計された基本モデルで、wav2vec 2.0フレームワークに基づいて構築されています。
音声分類 Transformers 英語
V
alkiskoudounas
31
0
Videomaev2 Base
VideoMAEv2-Baseは自己教師あり学習に基づく動画特徴抽出モデルで、UnlabeldHybrid-1Mデータセット上でデュアルマスキングメカニズムを用いて事前学習されています。
動画処理
V
OpenGVLab
3,565
5
TITAN
TITANは、病理学画像分析のための視覚的自己教師あり学習と視覚-言語アライメントによるマルチモーダル全スライド基礎モデルです。
マルチモーダル融合 英語
T
MahmoodLab
213.39k
37
Path Foundation
その他
Path Foundationは組織病理学アプリケーション向けの機械学習モデルで、自己教師あり学習で訓練され、H&E染色スライドから384次元の埋め込みベクトルを生成し、効率的な分類器モデルの訓練に使用できます。
画像分類 英語
P
google
220
39
RS M CLIP
MIT
リモートセンシング分野向けの多言語視覚-言語事前学習モデル、10言語の画像-テキストクロスモーダルタスクをサポート
画像生成テキスト 複数言語対応
R
joaodaniel
248
1
Rnabert
RNABERTは非コードRNA(ncRNA)に基づく事前学習モデルで、マスク言語モデリング(MLM)と構造アライメント学習(SAL)の目標を採用しています。
分子モデル その他
R
multimolecule
8,166
4
AV HuBERT
MuAViCデータセットに基づく多言語視聴音声認識モデル、音声と視覚モダリティを組み合わせた頑健な性能を実現
音声生成テキスト Transformers
A
nguyenvulebinh
683
3
Ijepa Vitg16 22k
I-JEPAは自己教師あり学習手法で、画像の一部の表現から同じ画像の他の部分の表現を予測し、手動のデータ変換やピクセルレベルの詳細を必要としません。
画像分類 Transformers
I
facebook
14
3
Ijepa Vith16 1k
I-JEPAは自己教師あり学習手法で、画像の一部の表現から同じ画像の他の部分の表現を予測し、事前定義された手動データ変換やピクセルレベルの詳細補完に依存しません。
画像分類 Transformers
I
facebook
153
0
Ijepa Vith14 22k
I-JEPAは自己教師あり学習手法で、画像の一部の表現から同じ画像の他の部分の表現を予測し、事前定義された手動データ変換やピクセルレベルの詳細補填に依存しません。
画像分類 Transformers
I
facebook
48
0
Ijepa Vith14 1k
I-JEPAは自己教師あり学習手法で、画像の一部の表現から同じ画像の他の部分の表現を予測し、手動のデータ変換やピクセルレベルの詳細に依存しません。
画像分類 Transformers
I
facebook
8,239
10
Dinov2.large.patch 14.reg 4
Apache-2.0
DINOv2は視覚トランスフォーマーに基づく画像特徴抽出モデルで、レジスタ機構を導入することで特徴抽出能力を向上させています。
D
refiners
15
0
Dinov2.giant.patch 14.reg 4
Apache-2.0
DINOv2は視覚変換器(ViT)ベースの画像特徴抽出モデルで、レジスタ機構を導入することで特徴抽出能力を向上させています。
D
refiners
17
0
Dinov2.large.patch 14
Apache-2.0
DINOv2 largeは自己教師あり学習に基づく大規模視覚特徴抽出モデルで、ロバストな画像特徴表現を生成できます。
D
refiners
20
0
Rad Dino Maira 2
その他
RAD-DINO-MAIRA-2は、DINOv2自己教師あり学習でトレーニングされたビジョントランスフォーマーモデルで、胸部X線画像のエンコードに特化しています。
Transformers
R
microsoft
9,414
11
Dasheng 1.2B
Apache-2.0
大声は大規模な自己教師あり学習で訓練された汎用オーディオエンコーダで、音声、音楽、環境音など多分野にわたる豊富なオーディオ情報を捉えることができます。
音声分類 Transformers
D
mispeech
135
0
Wav2vec2 Base BirdSet XCL
wav2vec 2.0 は音声表現学習のための自己教師あり学習フレームワークで、ラベル付けされていない音声データから音声特徴を学習できます。
音声分類 Transformers
W
DBD-research-group
177
0
Phikon V2
その他
Phikon-v2はVision Transformer Largeアーキテクチャに基づくモデルで、Dinov2自己教師あり手法を用いてPANCAN-XLデータセットで事前学習されており、組織学画像分析に特化しています。
画像分類 Transformers 英語
P
owkin
64.20k
15
Vqvae
MIT
VQVAEはVQ-VAEアーキテクチャに基づく動画生成モデルで、VideoGPTプロジェクトからクローンされ、Hugging Face形式に変換してより簡単にロードできるように設計されています。
動画処理 Transformers
V
hpcai-tech
179
6
Ahma 7B
Apache-2.0
Ahma-7BはMeta Llama(v1)アーキテクチャに基づく70億パラメータのデコーダー専用Transformerモデルで、完全にフィンランド語でゼロから事前学習されています。
大規模言語モデル Transformers その他
A
Finnish-NLP
201
8
Dinov2 Large
DINOv2はFacebook Researchがリリースした視覚モデルで、自己教師あり学習により汎用的な視覚特徴を抽出し、様々な下流タスクに適用可能です。
Transformers
D
Xenova
82
1
Phikon
その他
PhikonはiBOTでトレーニングされた組織病理学の自己教師あり学習モデルで、主に組織学的画像パッチから特徴を抽出するために使用されます。
画像分類 Transformers 英語
P
owkin
741.63k
30
Wav2vec2 Base Audioset
HuBERTアーキテクチャに基づくオーディオ表現学習モデルで、完全なAudioSetデータセットで事前学習済み
音声分類 Transformers
W
ALM
2,191
0
Hubert Base Audioset
HuBERTアーキテクチャに基づくオーディオ表現モデルで、完全なAudioSetデータセットで事前学習されており、汎用オーディオタスクに適しています
音声分類 Transformers
H
ALM
345
2
Hubert Large Audioset
HuBERTアーキテクチャに基づくTransformerモデルで、完全なAudioSetデータセットで事前学習されており、汎用オーディオ表現学習タスクに適しています。
音声分類 Transformers
H
ALM
79
0
Wav2vec2 Large Audioset
HuBERTアーキテクチャに基づくオーディオ表現モデルで、完全なAudioSetデータセットで事前学習されており、汎用オーディオタスクに適しています
音声分類 Transformers
W
ALM
43
0
Pubchemdeberta Augmented
TwinBoosterは、PubChem生物検定コーパスでファインチューニングされたDeBERTa V3ベースモデルで、Barlow Twinsの自己教師あり学習手法と勾配ブースティング技術を組み合わせ、分子特性予測を強化します。
分子モデル Transformers 英語
P
mschuh
25
0
Pubchemdeberta
TwinBoosterはPubChemの生物学的アッセイコーパスでファインチューニングされたDeBERTa V3ベースモデルで、Barlow Twinsの自己教師あり学習手法を組み合わせ、分子属性予測に使用されます。
分子モデル Transformers 英語
P
mschuh
14
1
Hubert Base Korean
Apache-2.0
Hubert(Hidden-Unit BERT)はFacebookが提案した音声表現学習モデルで、自己教師あり学習方式で生の波形信号から直接音声特徴を学習します。
音声認識 韓国語
H
team-lucid
54
26
Japanese Hubert Base
Apache-2.0
rinna株式会社が訓練した日本語HuBERT基礎モデルで、約19,000時間の日本語音声コーパスReazonSpeech v1に基づいて訓練されています。
音声認識 Transformers 日本語
J
rinna
4,550
68
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase