C

Chinese Clip Vit Base Patch16

OFA-Sysによって開発
中国語CLIPの基本バージョンで、ViT-B/16を画像エンコーダー、RoBERTa-wwm-baseをテキストエンコーダーとして使用し、約2億組の中国語画像テキストペアの大規模データセットでトレーニングされています。
ダウンロード数 49.02k
リリース時間 : 11/9/2022

モデル概要

中国語CLIPは視覚と言語のモデルで、画像とテキストの埋め込みと類似度を計算でき、中国語画像テキスト検索と分類タスクをサポートします。

モデル特徴

中国語最適化
中国語と言語シーンに特化して最適化され、中国語画像テキスト検索と分類タスクをサポートします。
大規模トレーニング
約2億組の中国語画像テキストペアの大規模データセットでトレーニングされ、強力な汎化能力を持っています。
マルチタスクサポート
画像テキスト検索、画像分類など、さまざまな視覚-言語タスクをサポートします。

モデル能力

画像とテキストの埋め込み計算
画像テキスト類似度計算
中国語画像テキスト検索
ゼロショット画像分類

使用事例

電子商取引
商品検索
テキスト記述を通じて関連商品画像を検索
MUGEデータセットでR@1が63.0に達する
コンテンツ審査
違反コンテンツ検出
テキスト記述を通じて違反画像を検出
ソーシャルメディア
画像テキストマッチング
画像に適切なテキスト記述を自動生成
Flickr30K-CNデータセットで画像からテキストR@1が81.6に達する
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase