Model Selection

マルチモーダル統一フレームワーク

# マルチモーダル統一フレームワーク

Harmonは革新的な統一マルチモーダル理解・生成フレームワークで、共有MARエンコーダーにより理解と生成の視覚表現を調和させ、テキストから画像生成やマルチモーダル理解タスクで優れた性能を発揮します。

テキスト生成画像

Safetensors English

Data2vec Vision Base Ft1k

Data2Vec-VisionはBEiTアーキテクチャに基づく自己教師あり学習モデルで、ImageNet-1kデータセットでファインチューニングされており、画像分類タスクに適しています。

Data2vec Vision Base

Data2Vec-VisionはBEiTアーキテクチャに基づく自己教師あり学習モデルで、ImageNet-1kデータセットで事前学習されており、画像分類タスクに適しています。

Data2vec Audio Large 960h

Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。この音声大規模モデルはLibriSpeechの960時間音声データで事前学習とファインチューニングされ、自動音声認識タスク向けに最適化されています。

Transformers English

Data2vec Audio Large 100h

Data2Vecは音声、自然言語処理、コンピュータビジョンタスクに適用可能な汎用自己教師あり学習フレームワークです。このモデルはLibrispeech音声データで100時間の事前学習とファインチューニングを行った大規模モデルです。

Transformers English

Data2vec Audio Large 10m

Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。この音声大規模モデルはLibrispeechの10分データで事前学習とファインチューニングされており、16kHzサンプリングの音声オーディオに適しています。

Transformers English

Data2vec Audio Large

Data2Vec-Audio-Largeは16kHzサンプリング音声データで事前学習された大型モデルで、自己教師あり学習フレームワークを採用し、音声認識などのタスクに適しています。

Transformers English

Data2vec Text Base

data2vec目標を用いて英語言語を事前学習した汎用的な自己教師付き学習フレームワークで、統一的な方法で異なるモーダルのタスクを処理します。

大規模言語モデル

Transformers English

Data2vec Audio Base 100h

Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。このオーディオ基本モデルはLibrispeech音声データで100時間の事前学習とファインチューニングが行われています。

Transformers English

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers English

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase