# マルチモーダル統一フレームワーク
Harmon 1 5B
Harmonは革新的な統一マルチモーダル理解・生成フレームワークで、共有MARエンコーダーにより理解と生成の視覚表現を調和させ、テキストから画像生成やマルチモーダル理解タスクで優れた性能を発揮します。
テキスト生成画像
Safetensors English
H
wusize
281
2
Data2vec Vision Base Ft1k
Apache-2.0
Data2Vec-VisionはBEiTアーキテクチャに基づく自己教師あり学習モデルで、ImageNet-1kデータセットでファインチューニングされており、画像分類タスクに適しています。
画像分類
Transformers

D
facebook
7,520
2
Data2vec Vision Base
Apache-2.0
Data2Vec-VisionはBEiTアーキテクチャに基づく自己教師あり学習モデルで、ImageNet-1kデータセットで事前学習されており、画像分類タスクに適しています。
画像分類
Transformers

D
facebook
427
3
Data2vec Audio Large 960h
Apache-2.0
Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。この音声大規模モデルはLibriSpeechの960時間音声データで事前学習とファインチューニングされ、自動音声認識タスク向けに最適化されています。
音声認識
Transformers English

D
facebook
2,531
7
Data2vec Audio Large 100h
Apache-2.0
Data2Vecは音声、自然言語処理、コンピュータビジョンタスクに適用可能な汎用自己教師あり学習フレームワークです。このモデルはLibrispeech音声データで100時間の事前学習とファインチューニングを行った大規模モデルです。
音声認識
Transformers English

D
facebook
46
2
Data2vec Audio Large 10m
Apache-2.0
Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。この音声大規模モデルはLibrispeechの10分データで事前学習とファインチューニングされており、16kHzサンプリングの音声オーディオに適しています。
音声認識
Transformers English

D
facebook
19
0
Data2vec Audio Large
Apache-2.0
Data2Vec-Audio-Largeは16kHzサンプリング音声データで事前学習された大型モデルで、自己教師あり学習フレームワークを採用し、音声認識などのタスクに適しています。
音声認識
Transformers English

D
facebook
97
1
Data2vec Text Base
MIT
data2vec目標を用いて英語言語を事前学習した汎用的な自己教師付き学習フレームワークで、統一的な方法で異なるモーダルのタスクを処理します。
大規模言語モデル
Transformers English

D
facebook
1,796
12
Data2vec Audio Base 100h
Apache-2.0
Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。このオーディオ基本モデルはLibrispeech音声データで100時間の事前学習とファインチューニングが行われています。
音声認識
Transformers English

D
facebook
4,369
1
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98