LongCLIP - SAE - ViT - L - 14オープンソースモデル - 長文入力をサポートし、テキストと画像のアラインメントを最適化

ホーム

Longclip SAE ViT L 14

zer0intによって開発

スパースオートエンコーダ（SAE）を用いてファインチューニングされたLong-CLIPモデルで、長文入力に対応し、テキスト-画像アライメント能力を最適化

テキスト生成画像

Safetensors

#長文CLIP最適化 #敵対的ファインチューニング #ゼロショット画像分類

ダウンロード数 290

リリース時間 : 12/19/2024

モデル概要

このモデルはLong-CLIP ViT-L/14のファインチューン版で、スパースオートエンコーダ技術により長文プロンプト処理能力を強化、特にテンセント混元動画システムとの連携に適している

モデル特徴

長文サポート

従来のCLIPの77トークン制限を突破し、より長いテキスト入力を効果的に処理

スパースオートエンコーダ微調整

SAE技術でモデルの表現能力を最適化し、テキスト-画像アライメント効果を向上

テンセント混元動画互換

HunyuanVideoシステムとの連携使用効果を特別に最適化

敵対的訓練

敵対的組版攻撃データセットに基づく訓練で堅牢性を強化

モデル能力

長文画像生成ガイド

ゼロショット画像分類

クロスモーダル検索

テキスト-画像アライメント

使用事例

クリエイティブコンテンツ生成

複雑シーン画像生成

複数の詳細を含む長文プロンプトに基づき対応画像を生成

69トークンの複雑なシーン記述を処理可能

非定型概念可視化

抽象的または非定型な概念を視覚表現に変換

優れた一貫性とプロンプト追従能力を維持

映像制作支援

絵コンテ設計

詳細な技術記述に基づき視覚的参考を生成

撮影パラメータと芸術的スタイルを正確に理解

🚀 Long-CLIP ViT-L/14 微調整: SAEを用いた敵対的トレーニング

このプロジェクトは、Long-CLIP ViT-L/14 をSAE（Sparse autoencoder）を用いて敵対的にトレーニングするものです。Long-CLIPは、元のCLIPモデルの入力トークン制限を超えた長文入力に対応したモデルです。

📦 データセットとモデル情報

プロパティ	詳細
データセット	- zer0int/CLIP-adversarial-typographic-attack_text-image - SPRIGHT-T2I/spright_coco
ベースモデル	BeichenZhang/LongCLIP-L
パイプラインタグ	zero-shot-image-classification

✨ 主な機能

SAEを用いた敵対的トレーニング

SAE（Sparse autoencoder）を用いたトレーニングを行っています。すべてのトレーニング情報とコードはこちらで確認できます。

Long-CLIPのダウンロード

このLong-CLIPのテキストエンコーダを直接ダウンロードできます。また、HunyuanVideoと組み合わせて使用するのに最適なLong-CLIPです。

必要なノード

zer0int/ComfyUI-HunyuanVideo-Nyanノードを使用する必要があります。このノードを使用することで、LLMとCLIPの影響力を調整できます。

支援

☕ コーヒーを請べる

📚 詳細ドキュメント

元のCLIPモデルの制限

元のCLIPモデルは最大77トークンの入力をサポートしていますが、有効な長さは約20トークンです。詳細は元のLong-CLIP論文を参照してください。

HunyuanVideoのデモ

69トークン、通常シーン

レンズ: 16mm。絞り: f/2.8。カラーグレーディング: 青緑のモノクロ。照明: 逆光のシルエットを伴うローキー。背景: 夜のゴシック様式の大聖堂、ステンドグラスの窓が割れている。カメラアングル: 忍者の肩越し、屋根に着地する空中の飛び越しを追跡。

52トークン、OOD（Out-of-Distribution）シーン

この超現実的な悪夢ドキュメンタリーでは、人間の顔を持つ大きなクモが食堂で平穏に朝食を楽しんでいます。クモはクモの体を持っていますが、前面に女性の顔があり、クモの脚の先には通常の人間の手があります。

画像とビデオ

image/png

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご