Longclip SAE ViT L 14
スパースオートエンコーダ(SAE)を用いてファインチューニングされたLong-CLIPモデルで、長文入力に対応し、テキスト-画像アライメント能力を最適化
ダウンロード数 290
リリース時間 : 12/19/2024
モデル概要
このモデルはLong-CLIP ViT-L/14のファインチューン版で、スパースオートエンコーダ技術により長文プロンプト処理能力を強化、特にテンセント混元動画システムとの連携に適している
モデル特徴
長文サポート
従来のCLIPの77トークン制限を突破し、より長いテキスト入力を効果的に処理
スパースオートエンコーダ微調整
SAE技術でモデルの表現能力を最適化し、テキスト-画像アライメント効果を向上
テンセント混元動画互換
HunyuanVideoシステムとの連携使用効果を特別に最適化
敵対的訓練
敵対的組版攻撃データセットに基づく訓練で堅牢性を強化
モデル能力
長文画像生成ガイド
ゼロショット画像分類
クロスモーダル検索
テキスト-画像アライメント
使用事例
クリエイティブコンテンツ生成
複雑シーン画像生成
複数の詳細を含む長文プロンプトに基づき対応画像を生成
69トークンの複雑なシーン記述を処理可能
非定型概念可視化
抽象的または非定型な概念を視覚表現に変換
優れた一貫性とプロンプト追従能力を維持
映像制作支援
絵コンテ設計
詳細な技術記述に基づき視覚的参考を生成
撮影パラメータと芸術的スタイルを正確に理解
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98