Clip Vit B 32 Japanese V1
C
Clip Vit B 32 Japanese V1
sonoisaによって開発
これは日本語に適したCLIPテキスト/画像エンコーダーモデルで、蒸留技術を用いて英語版CLIPモデルから日本語版に変換されました。
ダウンロード数 690
リリース時間 : 3/2/2022
モデル概要
このモデルはマルチモーダルモデルで、日本語のテキストと画像を処理し、テキストと画像の類似度計算や埋め込み表現の生成などのタスクに使用できます。
モデル特徴
日本語サポート
日本語に最適化されたテキストエンコーダーで、日本語テキストをより効果的に処理できます。
マルチモーダル処理
テキストと画像データを同時に処理し、それらの間の類似度を計算できます。
蒸留技術
英語CLIPモデルから蒸留技術で変換され、元モデルの強力な能力を保持しています。
モデル能力
テキスト-画像類似度計算
テキスト埋め込み生成
画像埋め込み生成
マルチモーダル検索
ゼロショット分類
使用事例
画像検索
いらすとや画像のマルチモーダル検索
日本語のテキスト記述を使用して関連画像を検索
ゼロショット検索の効果が良好
マルチモーダル分類
画像とテキストを組み合わせた分類
テキストプロンプトを利用して画像を分類
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98