L

Longclip SAE ViT L 14

zer0intによって開発
スパースオートエンコーダ(SAE)を用いてファインチューニングされたLong-CLIPモデルで、長文入力に対応し、テキスト-画像アライメント能力を最適化
ダウンロード数 290
リリース時間 : 12/19/2024

モデル概要

このモデルはLong-CLIP ViT-L/14のファインチューン版で、スパースオートエンコーダ技術により長文プロンプト処理能力を強化、特にテンセント混元動画システムとの連携に適している

モデル特徴

長文サポート
従来のCLIPの77トークン制限を突破し、より長いテキスト入力を効果的に処理
スパースオートエンコーダ微調整
SAE技術でモデルの表現能力を最適化し、テキスト-画像アライメント効果を向上
テンセント混元動画互換
HunyuanVideoシステムとの連携使用効果を特別に最適化
敵対的訓練
敵対的組版攻撃データセットに基づく訓練で堅牢性を強化

モデル能力

長文画像生成ガイド
ゼロショット画像分類
クロスモーダル検索
テキスト-画像アライメント

使用事例

クリエイティブコンテンツ生成
複雑シーン画像生成
複数の詳細を含む長文プロンプトに基づき対応画像を生成
69トークンの複雑なシーン記述を処理可能
非定型概念可視化
抽象的または非定型な概念を視覚表現に変換
優れた一貫性とプロンプト追従能力を維持
映像制作支援
絵コンテ設計
詳細な技術記述に基づき視覚的参考を生成
撮影パラメータと芸術的スタイルを正確に理解
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase