T

Taiyi CLIP RoBERTa 102M ViT L Chinese

IDEA-CCNLによって開発
初のオープンソース中国語CLIPモデル、1億2300万のテキスト画像ペアで事前学習、テキストエンコーダはRoBERTa-baseアーキテクチャを採用。
ダウンロード数 668
リリース時間 : 9/27/2022

モデル概要

中国語の視覚-言語統合表現モデル、画像分類とテキスト-画像検索タスクをサポート。

モデル特徴

中国語マルチモーダルサポート
中国語に特化して最適化された初のCLIPモデル、中国語テキストと画像の統合表現をサポート
効率的な学習戦略
視覚エンコーダのパラメータを凍結し、言語エンコーダのみを微調整する戦略を採用、学習効率と安定性を向上
大規模事前学習データ
悟空データセット(1億サンプル)とZeroデータセット(2300万サンプル)を統合して事前学習

モデル能力

ゼロショット画像分類
テキスト-画像検索
マルチモーダル特徴抽出

使用事例

画像理解
ゼロショット画像分類
微調整なしで画像を分類可能
ImageNet1k-CNで55.04% Top1精度を達成
クロスモーダル検索
テキストから画像検索
中国語テキスト記述に基づき関連画像を検索
Flickr30k-CNAテストセットで58.32% Top1精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase