CLIP - Giga - config - fixedオープンソースモデル - 画像とテキストのクロスモーダル理解をサポートし、無料でコンテンツ分析を支援

ホーム

CLIP Giga Config Fixed

Geonmoによって開発

LAION-2BデータセットでトレーニングされたCLIP大規模モデル、ViT-bigG-14アーキテクチャを採用、画像とテキストのクロスモーダル理解をサポート

テキスト生成画像

Transformers

オープンソースライセンス:MIT #マルチモーダル理解 #ゼロショット分類 #大規模事前学習

ダウンロード数 109

リリース時間 : 6/28/2023

モデル概要

これは大規模な視覚-言語事前学習モデルで、画像とテキストを同じ意味空間にマッピングし、クロスモーダル検索と理解を実現

モデル特徴

大規模事前学習

39BトークンのLAION-2Bデータセットでトレーニング、強力なクロスモーダル理解能力を有する

効率的な視覚エンコーディング

ViT-bigG-14アーキテクチャを採用、高解像度画像入力を効率的に処理

ゼロショット転移能力

ファインチューニングなしで下流タスクに適用可能、画像テキスト検索やゼロショット分類など

モデル能力

画像テキスト類似度計算

クロスモーダル検索

ゼロショット画像分類

画像キャプション生成

テキスト誘導画像検索

使用事例

コンテンツ検索

EC製品検索

テキスト記述による関連製品画像の検索

検索精度とユーザー体験の向上

コンテンツ審査

違反コンテンツ検出

画像テキストマッチングによる違反コンテンツの検出

自動化されたコンテンツ審査プロセス

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

CLIP Giga Config Fixed

モデル概要

モデル特徴

モデル能力

使用事例

🚀 不明なプロジェクト

📄 ライセンス