# 大規模事前学習

Metaclip B32 Fullcc2.5b
MetaCLIPはCommonCrawl(CC)の25億データポイントで訓練された視覚-言語モデルで、画像-テキスト共有埋め込み空間を構築します。
テキスト生成画像 Transformers
M
facebook
413
7
Qwen3 8B Base
Apache-2.0
Qwen3-8B-Baseは通義大規模言語モデルシリーズの最新世代の製品で、82億のパラメータを持ち、119種類の言語をサポートし、様々な自然言語処理タスクに適しています。
大規模言語モデル Transformers
Q
unsloth
5,403
1
Bart Large Teaser De V2
BARTアーキテクチャに基づく大規模ドイツ語テキスト処理モデル、様々な自然言語処理タスクに適用可能
大規模言語モデル Transformers
B
bettertextapp
123
0
Bart Large Paraphrase Generator En De V2
BARTアーキテクチャに基づく大規模英独言い換え生成モデル
機械翻訳 Transformers
B
bettertextapp
121
0
Gemma 2 Llama Swallow 2b It V0.1
Gemma-2-Llama-Swallowシリーズはgemma-2モデルを継続的に事前学習することで構築され、日本語処理能力を大幅に強化しながら、元の英語能力を保持しています。
大規模言語モデル Transformers 複数言語対応
G
tokyotech-llm
61
1
LHM 1B
Apache-2.0
LHMはフィードフォワード型モデルで、数秒で単一画像からアニメーション可能な3D人体を再構築できます。
3Dビジョン 英語
L
3DAIGC
169
1
LHM 500M
Apache-2.0
LHMはフィードフォワード型モデルで、単一画像から数秒でアニメーション可能な3D人体を再構築できます。
3Dビジョン 英語
L
3DAIGC
132
4
De Wiki Mlm 13
未知のデータセットでファインチューニングされた言語モデルで、トレーニングプロセスではTransformersライブラリが使用されました
大規模言語モデル Transformers
D
fpadovani
35
1
LHM
Apache-2.0
LHMはフィードフォワードモデルで、単一画像から数秒でアニメーション可能な3D人体を再構築できます。大規模ビデオデータセットで画像再構築損失を使用して訓練された当モデルは、多様な現実シーンに対して強力な汎化能力を示します。
3Dビジョン 英語
L
3DAIGC
22
21
Izanami Wav2vec2 Large
その他
大規模な日本のテレビ放送音声データを用いて事前学習された日本語wav2vec2.0 Largeモデル
音声認識 日本語
I
imprt
89
1
Kushinada Hubert Large
Apache-2.0
62,215時間の日本のテレビ放送音声データで事前学習された日本語HuBERT Largeモデル、音声特徴抽出用
音声認識 日本語
K
imprt
1,041
2
Kushinada Hubert Base
Apache-2.0
62,215時間の日本のテレビ放送音声データに基づいて事前学習された日本語音声特徴抽出モデル
音声認識 日本語
K
imprt
1,922
1
Instella 3B
その他
AMD Instinct MI300X GPUでトレーニングされた30億パラメータの完全オープン言語モデルファミリーで、同規模のオープンモデルを性能で凌駕
大規模言語モデル Transformers
I
amd
3,048
34
Vit So400m Patch16 Siglip 512.v2 Webli
Apache-2.0
SigLIP 2に基づく視覚Transformerモデルで、画像特徴抽出のために設計されており、多言語視覚-言語タスクに適しています。
テキスト生成画像 Transformers
V
timm
2,766
0
Siglip2 Giant Opt Patch16 384
Apache-2.0
SigLIP 2はSigLIP事前学習目標を基に改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像 Transformers
S
google
26.12k
14
Siglip2 Large Patch16 512
Apache-2.0
SigLIP 2はSigLIPをベースに改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像 Transformers
S
google
4,416
8
Owls 4B 180K
OWLSはWhisperスタイルのモデルスイートで、研究者が音声モデルのスケーリング特性を理解するのを助けることを目的としており、多言語音声認識と翻訳をサポートします。
音声認識 その他
O
espnet
40
5
Llave 7B
Apache-2.0
LLaVE-7BはLLaVA-OneVision-7Bモデルを基にした70億パラメータのマルチモーダル埋め込みモデルで、テキスト、画像、複数画像、動画の埋め込み表現能力を備えています。
マルチモーダル融合 Transformers 英語
L
zhibinlan
1,389
5
Wav2vec2 Large Xls R 300m Ru
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voice_17_0データセットでファインチューニングしたロシア語自動音声認識(ASR)モデルで、単語誤り率(WER)は0.195です。
音声認識 Transformers
W
NLPVladimir
56
1
Mt0 Xxl Mt Q4 K M GGUF
Apache-2.0
このモデルはbigscience/mt0-xxl-mtからllama.cppを使用してGGUF形式に変換された多言語テキスト生成モデルで、さまざまな言語タスクをサポートしています。
大規模言語モデル 複数言語対応
M
Markobes
14
1
C RADIOv2 G
その他
C-RADIOv2はNVIDIAが開発した視覚特徴抽出モデルで、複数のサイズバージョンを提供し、画像理解と高密度処理タスクに適しています。
Transformers
C
nvidia
648
11
CLIP ViT H 14 Laion2b S32b B79k
MIT
これはOpenCLIPフレームワークに基づき、LAION-2B英語サブセットで訓練された視覚言語モデルで、ゼロショット画像分類やクロスモーダル検索タスクに優れています。
テキスト生成画像
C
ModelsLab
132
0
Videomaev2 Giant
VideoMAEv2-giantは自己教師あり学習に基づく超大規模ビデオ分類モデルで、デュアルマスキング戦略を用いて事前学習を行っています。
動画処理 Safetensors
V
OpenGVLab
1,071
4
Videomaev2 Huge
VideoMAEv2-Hugeは自己教師あり学習に基づくビデオ特徴抽出モデルで、UnlabeldHybrid-1Mデータセットで1200エポックの事前学習を行いました。
動画処理 Safetensors
V
OpenGVLab
1,145
1
Videomaev2 Base
VideoMAEv2-Baseは自己教師あり学習に基づく動画特徴抽出モデルで、UnlabeldHybrid-1Mデータセット上でデュアルマスキングメカニズムを用いて事前学習されています。
動画処理
V
OpenGVLab
3,565
5
Longva 7B TPO
MIT
LongVA-7B-TPOはLongVA-7Bを基に時系列選好最適化を施した動画-テキストモデルで、長動画理解タスクで優れた性能を発揮します。
ビデオ生成テキスト Transformers
L
ruili0
225
1
CLIP ViT B 32 Laion2b S34b B79k
MIT
OpenCLIPフレームワークを使用し、LAION-2B英語データセットで訓練された視覚-言語モデル。ゼロショット画像分類とクロスモーダル検索をサポート
テキスト生成画像
C
recallapp
17
0
Reloc3r 512
Reloc3rは、事前学習済みの双視点相対カメラ姿勢回帰ネットワークと多視点運動平均モジュールを組み合わせた、簡潔で効率的なカメラ姿勢推定フレームワークです。
姿勢推定
R
siyan824
840
4
Aimv2 1b Patch14 224.apple Pt
AIM-v2はtimmライブラリベースの画像エンコーダモデルで、10億パラメータ規模を持ち、画像特徴抽出タスクに適しています。
画像分類 Transformers
A
timm
198
0
Sam2 Hiera Large.fb R1024 2pt1
Apache-2.0
HieraDet画像エンコーダーに基づくSAM2モデル、効率的な画像特徴抽出に特化
画像セグメンテーション Transformers
S
timm
31
0
Eva Giant Patch14 Clip 224.laion400m
MIT
EVA CLIPモデルはOpenCLIPとtimmフレームワークに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポートします。
テキスト生成画像
E
timm
124
0
Eva02 Large Patch14 Clip 336.merged2b
MIT
EVA02 CLIPはCLIPアーキテクチャに基づく大規模な視覚-言語モデルで、ゼロショット画像分類などのタスクをサポートします。
テキスト生成画像
E
timm
197
0
Eva02 Large Patch14 Clip 224.merged2b
MIT
EVA CLIPモデルはOpenCLIPとtimmモデルの重みに基づく視覚言語モデルで、ゼロショット画像分類などのタスクをサポートします。
画像分類
E
timm
165
0
Eva02 Enormous Patch14 Clip 224.laion2b Plus
MIT
EVA-CLIPはCLIPアーキテクチャに基づく大規模視覚-言語モデルで、ゼロショット画像分類などのタスクをサポートします。
テキスト生成画像
E
timm
54
0
Eva02 Enormous Patch14 Clip 224.laion2b
MIT
EVA-CLIPはCLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートします。
テキスト生成画像
E
timm
38
0
Vit Large Patch14 Clip 224.dfn2b
その他
CLIPアーキテクチャに基づく視覚トランスフォーマーモデルで、画像特徴抽出に特化しており、Apple社によってリリースされました。
画像分類 Transformers
V
timm
178
0
Vit Huge Patch14 Clip 224.dfn5b
その他
CLIPアーキテクチャに基づくViT-Huge画像エンコーダーで、AppleがリリースしたDFN5B-CLIPモデル。視覚特徴抽出タスクに適しています。
画像分類 Transformers
V
timm
128
0
Vit So400m Patch14 Siglip Gap 384.webli
Apache-2.0
SigLIPベースの視覚Transformerモデル、グローバル平均プーリングで画像特徴を処理
画像分類 Transformers
V
timm
96
0
Vit So400m Patch14 Siglip 224.webli
Apache-2.0
SigLIPベースの視覚Transformerモデル、画像エンコーダ部分のみを含み、オリジナルアテンションプーリングメカニズムを採用
画像分類 Transformers
V
timm
123
1
Vit Giant Patch14 Clip 224.laion2b
Apache-2.0
CLIPアーキテクチャに基づく視覚Transformerモデルで、画像特徴抽出のために設計され、laion2Bデータセットで学習
画像分類 Transformers
V
timm
71
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase