# マルチモーダル統一フレームワーク

Harmon 1 5B
Harmonは革新的な統一マルチモーダル理解・生成フレームワークで、共有MARエンコーダーにより理解と生成の視覚表現を調和させ、テキストから画像生成やマルチモーダル理解タスクで優れた性能を発揮します。
テキスト生成画像 Safetensors English
H
wusize
281
2
Data2vec Vision Base Ft1k
Apache-2.0
Data2Vec-VisionはBEiTアーキテクチャに基づく自己教師あり学習モデルで、ImageNet-1kデータセットでファインチューニングされており、画像分類タスクに適しています。
画像分類 Transformers
D
facebook
7,520
2
Data2vec Vision Base
Apache-2.0
Data2Vec-VisionはBEiTアーキテクチャに基づく自己教師あり学習モデルで、ImageNet-1kデータセットで事前学習されており、画像分類タスクに適しています。
画像分類 Transformers
D
facebook
427
3
Data2vec Audio Large 960h
Apache-2.0
Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。この音声大規模モデルはLibriSpeechの960時間音声データで事前学習とファインチューニングされ、自動音声認識タスク向けに最適化されています。
音声認識 Transformers English
D
facebook
2,531
7
Data2vec Audio Large 100h
Apache-2.0
Data2Vecは音声、自然言語処理、コンピュータビジョンタスクに適用可能な汎用自己教師あり学習フレームワークです。このモデルはLibrispeech音声データで100時間の事前学習とファインチューニングを行った大規模モデルです。
音声認識 Transformers English
D
facebook
46
2
Data2vec Audio Large 10m
Apache-2.0
Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。この音声大規模モデルはLibrispeechの10分データで事前学習とファインチューニングされており、16kHzサンプリングの音声オーディオに適しています。
音声認識 Transformers English
D
facebook
19
0
Data2vec Audio Large
Apache-2.0
Data2Vec-Audio-Largeは16kHzサンプリング音声データで事前学習された大型モデルで、自己教師あり学習フレームワークを採用し、音声認識などのタスクに適しています。
音声認識 Transformers English
D
facebook
97
1
Data2vec Text Base
MIT
data2vec目標を用いて英語言語を事前学習した汎用的な自己教師付き学習フレームワークで、統一的な方法で異なるモーダルのタスクを処理します。
大規模言語モデル Transformers English
D
facebook
1,796
12
Data2vec Audio Base 100h
Apache-2.0
Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。このオーディオ基本モデルはLibrispeech音声データで100時間の事前学習とファインチューニングが行われています。
音声認識 Transformers English
D
facebook
4,369
1
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase