bge-base-en-v1.5-ggufオープンソース埋め込みモデル - llama.cppと組み合わせることで、高い性能を効率的に発揮します

ホーム

Bge Base En V1.5 Gguf

CompendiumLabsによって開発

このプロジェクトは、GGUF形式で保存されたBGE埋め込みモデルを提供し、llama.cppとの併用に適しており、transformersよりも優れたパフォーマンスを提供します。

テキスト埋め込みオープンソースライセンス:MIT #英語埋め込みモデル #CPU効率的推論 #軽量化デプロイ

ダウンロード数 1,108

リリース時間 : 2/17/2024

モデル概要

BGE埋め込みモデルのGGUF形式バージョンで、テキスト埋め込みタスクに特化しており、埋め込みベクトルを効率的に処理する必要があるシナリオに適しています。

モデル特徴

GGUF形式最適化

GGUF形式で保存され、llama.cppと併用すると著しいパフォーマンス向上をもたらします。

多重量子化選択

F32、F16、Q8_0、Q4_K_Mの4種類の量子化バージョンを提供し、異なる精度とパフォーマンスの要件を満たします。

CPU加速

CPU上で最大30％の加速効果を実現し、同時に精度の損失を最小限に抑えます。

モデル能力

テキスト埋め込み

バッチ処理

効率的推論

使用事例

情報検索

文書類似度計算

文書間の意味的類似度を計算します。

自然言語処理

意味検索

キーワードではなく意味に基づく検索システムを構築します。

🚀 bge-base-en-v1.5-gguf

llama.cppで使用するためのGGUF形式の量子化および非量子化埋め込みモデルです。transformersに比べて大きなメリットがあり、ONNXに比べるとアプリケーションによってメリットが異なりますが、CPUでの大幅な高速化と、大規模モデルでのGPUでの適度な高速化を提供します。これらのモデルは比較的小規模なため、量子化による大きなメリットはありませんが、CPUで最大30%の高速化を実現し、精度の損失は最小限に抑えられます。

🚀 クイックスタート

ソースモデル: https://huggingface.co/BAAI/bge-base-en-v1.5

このプロジェクトは、llama.cppで使用するためのGGUF形式の量子化および非量子化埋め込みモデルを提供します。transformersに比べて大きなメリットがあり、ONNXに比べるとアプリケーションによってメリットが異なりますが、CPUでの大幅な高速化と、大規模モデルでのGPUでの適度な高速化を提供します。これらのモデルは比較的小規模なため、量子化による大きなメリットはありませんが、CPUで最大30%の高速化を実現し、精度の損失は最小限に抑えられます。

📦 利用可能なファイル

ファイル名	量子化方式	サイズ
bge-base-en-v1.5-f32.gguf	F32	417 MB
bge-base-en-v1.5-f16.gguf	F16	209 MB
bge-base-en-v1.5-q8_0.gguf	Q8_0	113 MB
bge-base-en-v1.5-q4_k_m.gguf	Q4_K_M	66 MB

💻 使用例

基本的な使用法

これらのモデルファイルは、純粋なllama.cppまたはllama-cpp-pythonのPythonバインディングで使用できます。

from llama_cpp import Llama
model = Llama(gguf_path, embedding=True)
embed = model.embed(texts)

ここで、textsは文字列または文字列のリストのいずれかで、戻り値は埋め込みベクトルのリストです。入力は効率的な実行のために自動的にバッチにグループ化されます。また、langchain_community.embeddings.LlamaCppEmbeddingsを通じてLangChainとの統合も可能です。