Vectorizer V1 S Multilingual
V
Vectorizer V1 S Multilingual
sinequaによって開発
Sinequaが開発した多言語ベクトル化ツールで、入力された段落やクエリに対して埋め込みベクトルを生成し、類似度計算や情報検索に使用されます。
ダウンロード数 322
リリース時間 : 7/10/2023
モデル概要
このモデルはBERT-Smallアーキテクチャに基づく多言語特徴抽出器で、主に文の類似度計算や情報検索タスクに使用され、英語、フランス語、ドイツ語、スペイン語の4言語をサポートしています。
モデル特徴
多言語サポート
英語、フランス語、ドイツ語、スペイン語の4言語のテキスト処理をサポート
効率的な推論
様々なGPUで効率的な推論速度を発揮し、FP16量子化下で32サンプルのバッチ処理にわずか5ミリ秒を要します
大文字小文字を区別しない
テキストの大文字小文字やアクセントに敏感ではなく、検索の堅牢性を向上させます
バッチ内ネガティブサンプル訓練
クエリ-段落ペアとバッチ内ネガティブサンプルを用いた訓練方法でベクトル表現を最適化
モデル能力
テキストベクトル化
多言語テキスト処理
意味的類似度計算
情報検索
使用事例
情報検索
ドキュメント検索システム
意味的類似度に基づくドキュメント検索システムの構築
BEIRベンチマークテストで平均Recall@100が0.448を達成
多言語質問応答システム
複数言語をサポートする質問応答システムのバックエンド
MIRACLベンチマークテストでフランス語のRecall@100が0.583を達成
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98