CLIP - SAE - ViT - L - 14オープンソースモデル - ゼロショット画像分類に優れ、対抗性タイポグラフィ攻撃識別の有力武器

ホーム

CLIP SAE ViT L 14

zer0intによって開発

スパースオートエンコーダ（SAE）でファインチューニングされたCLIPモデルで、ゼロショット画像分類タスクで優れた性能を発揮し、特に敵対的タイポグラフィ攻撃の識別に優れています

テキスト生成画像

Transformers

オープンソースライセンス:MIT #ゼロショット画像分類 #敵対的ロバスト性トレーニング #スパースオートエンコーダ最適化

ダウンロード数 32

リリース時間 : 12/8/2024

モデル概要

このモデルはOpenAI CLIP ViT-L/14のファインチューニング版で、スパースオートエンコーダ技術により敵対的ロバスト性を向上させ、ImageNet/ObjectNetなどのベンチマークテストでオリジナルモデルを上回る性能を示します

モデル特徴

敵対的ロバスト性強化

スパースオートエンコーダ技術により、敵対的タイポグラフィ攻撃に対する識別能力を向上

高性能

ImageNet/ObjectNetテストで89%の精度を達成し、オリジナルCLIPモデルの84.5%を上回る

Tencent Hunyuanビデオ適応

Tencent Hunyuanビデオフレームワークに特別に適応した最適な選択肢

線形探査タスクの優位性

CLIP_benchmarkの線形探査タスクで最高の性能を発揮

モデル能力

ゼロショット画像分類

敵対的サンプル識別

マルチモーダル理解

テキスト-画像マッチング

使用事例

コンテンツセキュリティ

敵対的タイポグラフィ攻撃検出

特殊なタイポグラフィ処理が施された敵対的画像を識別

白黒の猫/犬などの敵対的サンプルを正確に分類可能

ビデオ処理

Tencent Hunyuanビデオ統合

ビデオ理解モジュールの視覚エンコーダとして使用

専用ComfyUIノードと組み合わせて使用すると最高の効果を発揮

モデル	精度
my GmP	91%
SAE (このモデル)	89%
OpenAI 事前学習モデル	84.5%

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

CLIP SAE ViT L 14

モデル概要

モデル特徴

モデル能力

使用事例

🚀 CLIP ViT-L/14 ファインチューニング: SAEを用いた敵対的トレーニング

✨ 主な機能

📦 インストール

💻 使用例

基本的な使用法

📚 ドキュメント

データセット

ベースモデル

パイプラインタグ

ライブラリ名

精度比較

ダウンロードリンク

関連リンク

動画

画像

🔧 技術詳細

📄 ライセンス