M BERT Base ViT B
BERT-base-multilingualをファインチューニングした多言語CLIPテキストエンコーダで、69言語をCLIPビジュアルエンコーダとアライメントできます。
ダウンロード数 3,376
リリース時間 : 3/2/2022
モデル概要
このモデルは、BERT-base-multilingualをファインチューニングすることで、69言語のテキスト埋め込み空間をViT-B/32ビジュアルエンコーダに対応するCLIPテキストエンコーダとアライメントし、多言語のビジュアル - 言語理解能力を実現します。
モデル特徴
多言語対応
69言語のテキスト埋め込みをCLIPビジュアル空間とアライメントできます。
クロスモーダルアライメント
線形投影により、多言語BERT埋め込みをCLIPビジュアルエンコーダの共有空間にマッピングします。
翻訳データ強化
GCC+MSCOCO+VizWizの組み合わせデータの翻訳を使用して多言語訓練セットを生成します。
モデル能力
多言語テキスト埋め込み
クロスモーダル検索
画像 - テキストマッチング
多言語ビジュアル意味理解
使用事例
クロスモーダル検索
多言語画像検索
異なる言語でクエリを行い、関連する画像を検索します。
多言語コンテンツ理解
多言語画像注釈
画像に対して複数の言語の説明テキストを生成します。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98