T

Taiyi CLIP Roberta Large 326M Chinese

IDEA-CCNLによって開発
初のオープンソース中国語CLIPモデル、1.23億の画像テキストペアで事前学習済み、中国語の画像テキスト特徴抽出とゼロショット分類をサポート
ダウンロード数 10.37k
リリース時間 : 7/19/2022

モデル概要

中国語マルチモーダルCLIPモデル、テキストエンコーダーにRoBERTa-large、視覚エンコーダーにViT-L-14を採用、中国語画像テキストタスク専用設計

モデル特徴

中国語マルチモーダルサポート
中国語に特化して最適化された初のCLIPモデル、中国語テキストと画像の共同表現学習をサポート
大規模事前学習
1.23億の中国語画像テキストペア(悟空+Zeroデータセット)で事前学習、豊富なクロスモーダル関連性を学習
安定した学習戦略
視覚エンコーダーを凍結し、テキストエンコーダーのみを微調整する戦略を採用、学習の安定性を向上

モデル能力

ゼロショット画像分類
画像テキスト特徴抽出
クロスモーダル検索
画像テキスト類似度計算

使用事例

コンテンツ検索
中国語画像検索
中国語テキストクエリを使用して関連画像を検索
Flickr30k中国語テストセットでTop1精度54.36%
コンテンツ分類
ゼロショット画像分類
微調整なしで直接画像を分類
ImageNet1k中国語版Top1精度53.05%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase