T

Taiyi CLIP Roberta 102M Chinese

IDEA-CCNLによって開発
初めてオープンソース化された中国語CLIPモデルで、1億2300万の画像テキストペアで事前学習されており、テキストエンコーダはRoBERTa-baseアーキテクチャを採用しています。
ダウンロード数 558
リリース時間 : 7/9/2022

モデル概要

このモデルは中国語の視覚-言語表現モデルで、画像とテキストの関係を理解し、ゼロショット画像分類と画像テキスト検索タスクをサポートします。

モデル特徴

中国語サポート
中国語に特化して最適化された初のCLIPモデルで、テキストエンコーダは中国語RoBERTa-wwmアーキテクチャを採用しています
大規模事前学習
1億2300万の中国語画像テキストペアで事前学習されており、悟空データセットと360Zeroデータセットを含みます
効率的な学習戦略
視覚エンコーダのパラメータを固定し、言語エンコーダのみをファインチューニングすることで、学習効率と安定性を向上させています

モデル能力

ゼロショット画像分類
画像テキスト特徴抽出
クロスモーダル検索
画像-テキスト類似度計算

使用事例

画像理解
ゼロショット画像分類
ファインチューニングなしで画像を分類可能
ImageNet1k中国語版でTop1精度42.85%
情報検索
画像テキスト検索
テキストに基づいて関連画像を検索、または画像に基づいて関連テキストを検索
Flickr30k中国語テストセットでTop1精度46.32%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase