🚀 vectorizer.raspberry
モデルカード
このモデルはSinequaによって開発されたベクトライザーです。文章やクエリを入力すると、埋め込みベクトルを生成します。文章のベクトルはベクトルインデックスに保存され、クエリベクトルはクエリ時にインデックス内の関連する文章を検索するために使用されます。
モデル名: vectorizer.raspberry
🚀 クイックスタート
このモデルは、文章やクエリから埋め込みベクトルを生成するために使用できます。以下に、基本的な使用方法を説明します。
✨ 主な機能
- 複数の言語に対応: 英語、フランス語、ドイツ語、スペイン語、イタリア語、オランダ語、日本語、ポルトガル語、中国語(簡体字)など、複数の言語に対応しています。
- ケースとアクセントに非感受性: 大文字小文字やアクセントに関係なく、安定したベクトルを生成します。
- 低次元出力: 追加の密な層を使用して、出力次元を256に削減しています。
📦 インストール
必要条件
- 最小Sinequaバージョン: 11.10.0
- FP16モデルとCUDAコンピュートキャパビリティ8.9以上のGPU(NVIDIA L4など)を使用するための最小Sinequaバージョン: 11.11.0
- Cudaコンピュートキャパビリティ: 5.0以上(FP16を使用する場合は6.0以上)
📚 ドキュメント
サポートされる言語
このモデルは、以下の言語でトレーニングおよびテストされています。
- 英語
- フランス語
- ドイツ語
- スペイン語
- イタリア語
- オランダ語
- 日本語
- ポルトガル語
- 中国語(簡体字)
これらの言語に加えて、ベースモデルの事前学習時に使用された追加の91言語に対しても基本的なサポートが期待できます(XLM - R論文の付録Aを参照)。
スコア
メトリック |
値 |
関連性 (Recall@100) |
0.613 |
関連性スコアは、[BEIRベンチマーク](https://github.com/beir - cellar/beir)のデータセットで評価した結果を平均したものです。なお、これらのデータセットはすべて英語です。
推論時間
GPU |
量子化タイプ |
バッチサイズ1 |
バッチサイズ32 |
NVIDIA A10 |
FP16 |
1 ms |
5 ms |
NVIDIA A10 |
FP32 |
2 ms |
18 ms |
NVIDIA T4 |
FP16 |
1 ms |
12 ms |
NVIDIA T4 |
FP32 |
3 ms |
52 ms |
NVIDIA L4 |
FP16 |
2 ms |
5 ms |
NVIDIA L4 |
FP32 |
4 ms |
24 ms |
GPUメモリ使用量
量子化タイプ |
メモリ |
FP16 |
550 MiB |
FP32 |
1050 MiB |
GPUメモリ使用量は、バッチサイズ32のNVIDIA T4 GPUで実際のモデルが消費するGPUメモリのみを含みます。ONNXランタイムが初期化時に消費する固定量のメモリ(使用するGPUによって0.5から1 GiB程度)は含まれません。
モデルの詳細
概要
- パラメータ数: 1億700万
- ベース言語モデル: [mMiniLMv2 - L6 - H384 - distilled - from - XLMR - Large](https://huggingface.co/nreimers/mMiniLMv2 - L6 - H384 - distilled - from - XLMR - Large) (論文, GitHub)
- ケースとアクセントに非感受性
- 出力次元: 256(追加の密な層で削減)
- トレーニング手順: マイニングされたハードネガティブデータを持つデータセットに対してはクエリ - 文章 - ネガティブのトリプレット、それ以外のデータセットに対してはクエリ - 文章のペア。ネガティブの数はバッチ内ネガティブ戦略で増やされます。
トレーニングデータ
このモデルは、[all - MiniLM - L6 - v2](https://huggingface.co/sentence - transformers/all - MiniLM - L6 - v2)モデルで引用されているすべてのデータセットを使用してトレーニングされています。さらに、前述の9つの言語に関するthis paperで引用されているデータセットでもトレーニングされています。
評価指標
関連性スコアを決定するために、[BEIRベンチマーク](https://github.com/beir - cellar/beir)のデータセットで評価した結果を平均しました。すべてのデータセットは英語です。
データセット |
Recall@100 |
平均 |
0.613 |
Arguana |
0.957 |
CLIMATE - FEVER |
0.468 |
DBPedia Entity |
0.377 |
FEVER |
0.820 |
FiQA - 2018 |
0.639 |
HotpotQA |
0.560 |
MS MARCO |
0.845 |
NFCorpus |
0.287 |
NQ |
0.756 |
Quora |
0.992 |
SCIDOCS |
0.456 |
SciFact |
0.906 |
TREC - COVID |
0.100 |
Webis - Touche - 2020 |
0.413 |
このモデルの多言語能力をテストするために、[MIRACLベンチマーク](https://github.com/project - miracl/miracl)のデータセットで評価しました。すべてのトレーニング言語がベンチマークに含まれているわけではないため、存在する言語のみの指標を報告しています。
言語 |
Recall@100 |
フランス語 |
0.650 |
ドイツ語 |
0.528 |
スペイン語 |
0.602 |
日本語 |
0.614 |
中国語(簡体字) |
0.680 |