e5-base-v2-ggufオープンソース埋め込みモデル - 無料で文の類似度計算をサポート、512トークンのコンテキスト

ホーム

E5 Base V2 Gguf

ChristianAzinnによって開発

e5-base-v2埋め込みモデルのGGUF形式のファイルで、文の類似度計算などのタスクに使用され、最大512トークンのコンテキストをサポートします。

テキスト埋め込み英語オープンソースライセンス:MIT #英語のテキスト埋め込み #文の類似度計算 #512トークンのコンテキスト

ダウンロード数 168

リリース時間 : 4/8/2024

モデル概要

このリポジトリには、e5-base-v2埋め込みモデルのGGUF形式のファイルが含まれており、テキスト埋め込み計算タスク（文の類似度計算など）に適しています。モデルは英語をサポートし、最大コンテキスト長は512トークンです。

モデル特徴

GGUF形式のサポート

e5-base-v2埋め込みモデルのGGUF形式のファイルを提供し、llama.cppとLM Studioと互換性があります。

効率的な量子化

Q2_Kからfp32までの複数の量子化バージョンを提供し、さまざまなシナリオでのパフォーマンスと精度の要件を満たします。

長いコンテキストのサポート

最大512トークンのコンテキスト長をサポートし、長いテキストの処理に適しています。

モデル能力

テキスト埋め込み計算

文の類似度計算

使用事例

情報検索

検索クエリの埋め込み

検索クエリを埋め込みベクトルに変換し、類似度マッチングに使用します。

テキスト分析

テキストの類似度計算

2つのテキストの類似度を計算し、推薦またはクラスタリングタスクに使用します。

🚀 e5-base-v2-gguf

このリポジトリは、e5-base-v2埋め込みモデルのGGUF形式のファイルを提供しています。これらのファイルは、特定のコミットに基づいて変換および量子化され、特定のハードウェアで生成されました。また、これらのファイルは特定のバージョンのllama.cppやLM Studioと互換性があります。

🚀 クイックスタート

このモデルを使用するには、まず必要な依存関係をインストールし、モデルファイルをダウンロードしてください。その後、以下のセクションで説明する使用例に沿って操作を行うことができます。

✨ 主な機能

このモデルは、文章の埋め込みを計算するために使用できます。
最大512トークンのコンテキストをサポートしています。
複数の量子化方法が提供されており、メモリ使用量と精度のバランスを調整できます。

📦 インストール

このモデルを使用するには、以下の手順に従ってください。

llama.cppをビルドします。
必要なモデルファイルをダウンロードします。
モデルファイルを適切な場所に配置します。

💻 使用例

基本的な使用法

llama.cppを使用して単一の埋め込みを計算するには、以下のコマンドを実行します。

./embedding -ngl 99 -m [filepath-to-gguf].gguf -p 'search_query: What is TSNE?'

また、複数のテキストを一度に埋め込むこともできます。ただし、トークンの総数がコンテキスト長を超えないようにしてください。 texts.txt:

search_query: What is TSNE?
search_query: Who is Laurens Van der Maaten?

複数の埋め込みを計算するには、以下のコマンドを実行します。

./embedding -ngl 99 -m [filepath-to-gguf].gguf -f texts.txt

高度な使用法

LM Studioを使用してモデルを利用するには、以下の手順に従ってください。

こちらからLM Studio 0.2.19ベータ版をダウンロードしてインストールします。
アプリを開き、メイン検索バーで"ChristianAzinn"を検索するか、左メニューの"Search"タブから検索します。
表示されたモデルから目的のモデルを選択し、量子化方法を選んでダウンロードします。
モデルのダウンロードが完了すると、左メニューの"Local Server"タブに移動し、テキスト埋め込みモデルのローダーを開きます。
ドロップダウンからダウンロードしたモデルを選択してロードします。必要に応じて、右側のメニューで設定を調整します。
"Start Server"ボタンをクリックしてサーバーを起動します。

APIエンドポイントに対する例としてのcurlリクエストは以下の通りです。

curl http://localhost:1234/v1/embeddings \
  -H "Content-Type: application/json" \
  -d '{
    "input": "Your text string goes here",
    "model": "model-identifier-here"
  }'

📚 ドキュメント

元の説明

Text Embeddings by Weakly-Supervised Contrastive Pre-training Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, Furu Wei, arXiv 2022

このモデルは12層で、埋め込みサイズは768です。

説明

このリポジトリに含まれるGGUF形式のファイルは、llama.cppの特定のPRとコミットに基づいて、consumer RTX 4090上で変換および量子化されました。

互換性

これらのファイルは、コミット4524290e8までのllama.cpp、およびバージョン0.2.19までのLM Studioと互換性があります。

量子化方法の説明

詳細を表示するにはクリック

利用可能な方法は以下の通りです。 * GGML_TYPE_Q2_K - 16ブロックを含むスーパーブロックでの"type-1" 2ビット量子化。各ブロックには16の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、有効な重みあたりのビット数は2.5625ビットになります。 * GGML_TYPE_Q3_K - 16ブロックを含むスーパーブロックでの"type-0" 3ビット量子化。各ブロックには16の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375ビット/重みが使用されます。 * GGML_TYPE_Q4_K - 8ブロックを含むスーパーブロックでの"type-1" 4ビット量子化。各ブロックには32の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5ビット/重みが使用されます。 * GGML_TYPE_Q5_K - "type-1" 5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5ビット/重みになります。 * GGML_TYPE_Q6_K - "type-0" 6ビット量子化。16ブロックを含むスーパーブロックで、各ブロックには16の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625ビット/重みが使用されます。

以下の「提供されるファイル」表を参照して、どのファイルがどの方法を使用しているかを確認してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	最大必要RAM
e5-base-v2.Q2_K.gguf	Q2_K	2	54.2 MB	最小、大幅な品質低下 - ほとんどの目的には推奨されません
e5-base-v2.Q3_K_S.gguf	Q3_K_S	3	58.5 MB	非常に小さい、高い品質低下
e5-base-v2.Q3_K_M.gguf	Q3_K_M	3	64.6 MB	非常に小さい、高い品質低下
e5-base-v2.Q3_K_L.gguf	Q3_K_L	3	69.5 MB	小さい、大幅な品質低下
e5-base-v2.Q4_0.gguf	Q4_0	4	69.8 MB	レガシー; 小さい、非常に高い品質低下 - Q3_K_Mの使用を推奨
e5-base-v2.Q4_K_S.gguf	Q4_K_S	4	71.0 MB	小さい、大きな品質低下
e5-base-v2.Q4_K_M.gguf	Q4_K_M	4	74.4 MB	中程度、バランスの良い品質 - 推奨
e5-base-v2.Q5_0.gguf	Q5_0	5	80.5 MB	レガシー; 中程度、バランスの良い品質 - Q4_K_Mの使用を推奨
e5-base-v2.Q5_K_S.gguf	Q5_K_S	5	80.5 MB	大きい、低い品質低下 - 推奨
e5-base-v2.Q5_K_M.gguf	Q5_K_M	5	82.8 MB	大きい、非常に低い品質低下 - 推奨
e5-base-v2.Q6_K.gguf	Q6_K	6	91.7 MB	非常に大きい、極めて低い品質低下
e5-base-v2.Q8_0.gguf	Q8_0	8	118 MB	非常に大きい、極めて低い品質低下 - 推奨
e5-base-v2.Q8_0.gguf	fp16	16	219 MB	非常に大きい、ほぼ元のモデル - 推奨されません
e5-base-v2.Q8_0.gguf	fp32	32	436 MB	非常に大きい、ほぼ元のモデル - 推奨されません