C

Chinese Clip Vit Huge Patch14

OFA-Sysによって開発
Chinese CLIPはVision Transformerアーキテクチャに基づくマルチモーダルモデルで、中国語の視覚-言語タスクをサポートします。
ダウンロード数 623
リリース時間 : 11/9/2022

モデル概要

このモデルは視覚と言語処理能力を組み合わせ、中国語テキストと画像の関連性を理解でき、クロスモーダル検索や分類タスクに適しています。

モデル特徴

中国語マルチモーダル理解
中国語シナリオに特化して最適化され、画像と中国語テキスト入力を同時に処理可能
視覚Transformerアーキテクチャ
ViT-Base構造を採用、16x16画像ブロック処理で性能と効率のバランスを実現
ゼロショット分類能力
微調整なしでテキストプロンプトによる画像分類タスクを実行可能

モデル能力

画像-テキストマッチング
クロスモーダル検索
ゼロショット画像分類
中国語シナリオ理解

使用事例

コンテンツ審査
違反コンテンツ検出
テキスト記述による違反画像コンテンツの検出
特定シナリオにおけるセンシティブコンテンツを識別可能
電子商取引
商品検索
自然言語記述によるマッチング商品画像の検索
検索精度とユーザー体験の向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase