C

Chinese Clip Vit Large Patch14 336px

OFA-Sysによって開発
中国語CLIPは約2億組の中国語画像テキストペアデータセットに基づくCLIPの簡易実装で、ViT-L/14@336pxを画像エンコーダー、RoBERTa-wwm-baseをテキストエンコーダーとして採用しています。
ダウンロード数 713
リリース時間 : 11/9/2022

モデル概要

大規模な中国語視覚言語事前学習モデルで、画像テキスト類似度計算やクロスモーダル検索などのタスクをサポートします。

モデル特徴

大規模中国語事前学習
2億組の中国語画像テキストペアデータセットで訓練され、中国語シーンに対する理解能力が優れています
高性能クロスモーダル検索
MUGE、Flickr30K-CNなどの中国語ベンチマークでSOTA性能を達成
ゼロショット転移能力
ゼロショット画像分類やクロスモーダル検索タスクをサポート

モデル能力

画像テキスト類似度計算
テキストから画像への検索
画像からテキストへの検索
ゼロショット画像分類

使用事例

EC
商品画像テキストマッチング
商品画像と説明文を自動的にマッチング
商品検索の精度向上
コンテンツ審査
違反コンテンツ検出
画像とテキストが不一致な違反コンテンツを検出
審査効率の向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase