BGE - M3 - ONNXオープンソース埋め込みモデル - 密な検索や語彙マッチングなどをサポートし、簡単にフレームワークと互換性を持つ

ホーム

Bge M3 Onnx

aapotによって開発

BGE-M3は密検索、語彙マッチング、マルチベクトル相互作用をサポートする埋め込みモデルで、ONNX Runtimeなどのフレームワークとの互換性のためにONNX形式に変換されています。

テキスト埋め込み

Transformers

オープンソースライセンス:MIT #マルチモーダル埋め込み #密疎混合検索 #ONNX最適化

ダウンロード数 292

リリース時間 : 2/16/2024

モデル概要

BGE-M3は多機能な埋め込みモデルで、密、疎、ColBERTベクトル表現を同時に出力でき、様々な情報検索タスクに適用可能です。

モデル特徴

マルチベクトル表現

密、疎、ColBERTの3種類のベクトル表現方式を同時にサポート

ONNX互換性

ONNX形式に変換済みで、ONNX Runtimeなどの複数フレームワークをサポート

最適化サポート

異なるレベルのグラフ最適化オプションを提供し、必要に応じて選択可能

正規化処理

デフォルトで密ベクトルとColBERTベクトルに正規化処理を実施

モデル能力

密ベクトル検索

語彙マッチング

マルチベクトル相互作用

テキスト埋め込み生成

使用事例

情報検索

ドキュメント検索

密ベクトル表現を利用した意味的類似性検索

クエリと意味的に関連するドキュメントを取得可能

キーワードマッチング

疎ベクトル表現を使用した正確な語彙マッチング

特定のキーワードを含むドキュメントを識別可能

質問応答システム

回答検索

複数のベクトル表現方式を組み合わせて最も関連性の高い回答を検索

質問応答システムの精度と再現率を向上

🚀 BGE - M3 ONNXモデル

[BGE - M3](https://huggingface.co/BAAI/bge - m3)をHF Optimumを使用してONNXウェイトに変換し、ONNX Runtimeなどと互換性を持たせます。

このONNXモデルは、密ベクトル、疎ベクトル、およびColBERT埋め込み表現を一度に出力します。出力は、前述の表現の順序で並んだnumpy配列のリストです。

⚠️ 重要提示

密ベクトルとColBERT埋め込みは、元のFlagEmbeddingライブラリのデフォルトの動作と同様に正規化されています。正規化されていない出力が必要な場合は、bgem3_model.pyのコードを変更し、export_onnx.pyスクリプトを使用してONNXエクスポートを再実行できます。

このONNXモデルには、"O2"レベルのグラフ最適化が適用されています。最適化レベルの詳細については、こちらを参照してください。異なる最適化レベルまたは最適化なしのONNXモデルが必要な場合は、適切な最適化引数を指定してexport_onnx.pyスクリプトを再実行できます。

🚀 クイックスタート

📦 インストール

必要なライブラリをインストールします。

pip install onnxruntime==1.17.0
pip install transformers==4.37.2

[Git LFS](https://git - lfs.com/)を使用してこのリポジトリをクローンし、ONNXモデルファイルを取得します。

💻 使用例

基本的な使用法

import onnxruntime as ort
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("BAAI/bge-m3")
ort_session = ort.InferenceSession("model.onnx")

inputs = tokenizer("BGE M3 is an embedding model supporting dense retrieval, lexical matching and multi-vector interaction.", padding="longest", return_tensors="np")
inputs_onnx = {k: ort.OrtValue.ortvalue_from_numpy(v) for k, v in inputs.items()}

outputs = ort_session.run(None, inputs_onnx)

高度な使用法

from collections import defaultdict


def process_token_weights(token_weights: np.ndarray, input_ids: list):
    # conver to dict
    result = defaultdict(int)
    unused_tokens = set(
        [
            tokenizer.cls_token_id,
            tokenizer.eos_token_id,
            tokenizer.pad_token_id,
            tokenizer.unk_token_id,
        ]
    )
    for w, idx in zip(token_weights, input_ids):
        if idx not in unused_tokens and w > 0:
            idx = str(idx)
            # w = int(w)
            if w > result[idx]:
                result[idx] = w
    return result


token_weights = outputs[1].squeeze(-1)
lexical_weights = list(
    map(process_token_weights, token_weights, inputs["input_ids"].tolist())
)

🔧 ONNXウェイトのエクスポート

提供されているカスタムBGE - M3 PyTorchモデルbgem3_model.pyファイルと、HF Optimumを利用したexport_onnx.py ONNXウェイトエクスポートスクリプトを使用して、ONNXウェイトをエクスポートできます。必要に応じて、bgem3_model.pyのモデル構成を変更して、たとえば埋め込みの正規化を削除したり、3つの埋め込み表現をすべて出力しないようにできます。出力表現の数を変更した場合は、export_onnx.pyのONNX出力構成BGEM3OnnxConfigも変更する必要があります。

まず、必要なPythonパッケージをインストールします。

pip install -r requirements.txt

次に、以下のコマンドでONNXウェイトをエクスポートします。

python export_onnx.py --output . --opset 17 --device cpu --optimize O2

オプションの最適化レベルの詳細については、こちらを参照してください。

📄 ライセンス

このプロジェクトはMITライセンスの下でライセンスされています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご