🚀 e5-base-v2-gguf
このリポジトリは、e5-base-v2埋め込みモデルのGGUF形式のファイルを提供しています。これらのファイルは、特定のコミットに基づいて変換および量子化され、特定のハードウェアで生成されました。また、これらのファイルは特定のバージョンのllama.cppやLM Studioと互換性があります。
🚀 クイックスタート
このモデルを使用するには、まず必要な依存関係をインストールし、モデルファイルをダウンロードしてください。その後、以下のセクションで説明する使用例に沿って操作を行うことができます。
✨ 主な機能
- このモデルは、文章の埋め込みを計算するために使用できます。
- 最大512トークンのコンテキストをサポートしています。
- 複数の量子化方法が提供されており、メモリ使用量と精度のバランスを調整できます。
📦 インストール
このモデルを使用するには、以下の手順に従ってください。
llama.cpp
をビルドします。
- 必要なモデルファイルをダウンロードします。
- モデルファイルを適切な場所に配置します。
💻 使用例
基本的な使用法
llama.cpp
を使用して単一の埋め込みを計算するには、以下のコマンドを実行します。
./embedding -ngl 99 -m [filepath-to-gguf].gguf -p 'search_query: What is TSNE?'
また、複数のテキストを一度に埋め込むこともできます。ただし、トークンの総数がコンテキスト長を超えないようにしてください。
texts.txt
:
search_query: What is TSNE?
search_query: Who is Laurens Van der Maaten?
複数の埋め込みを計算するには、以下のコマンドを実行します。
./embedding -ngl 99 -m [filepath-to-gguf].gguf -f texts.txt
高度な使用法
LM Studioを使用してモデルを利用するには、以下の手順に従ってください。
- こちらからLM Studio 0.2.19ベータ版をダウンロードしてインストールします。
- アプリを開き、メイン検索バーで"ChristianAzinn"を検索するか、左メニューの"Search"タブから検索します。
- 表示されたモデルから目的のモデルを選択し、量子化方法を選んでダウンロードします。
- モデルのダウンロードが完了すると、左メニューの"Local Server"タブに移動し、テキスト埋め込みモデルのローダーを開きます。
- ドロップダウンからダウンロードしたモデルを選択してロードします。必要に応じて、右側のメニューで設定を調整します。
- "Start Server"ボタンをクリックしてサーバーを起動します。
APIエンドポイントに対する例としてのcurlリクエストは以下の通りです。
curl http://localhost:1234/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"input": "Your text string goes here",
"model": "model-identifier-here"
}'
📚 ドキュメント
元の説明
Text Embeddings by Weakly-Supervised Contrastive Pre-training
Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, Furu Wei, arXiv 2022
このモデルは12層で、埋め込みサイズは768です。
説明
このリポジトリに含まれるGGUF形式のファイルは、llama.cppの特定のPRとコミットに基づいて、consumer RTX 4090上で変換および量子化されました。
互換性
これらのファイルは、コミット4524290e8までのllama.cpp、およびバージョン0.2.19までのLM Studioと互換性があります。
量子化方法の説明
詳細を表示するにはクリック
利用可能な方法は以下の通りです。
* GGML_TYPE_Q2_K - 16ブロックを含むスーパーブロックでの"type-1" 2ビット量子化。各ブロックには16の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、有効な重みあたりのビット数は2.5625ビットになります。
* GGML_TYPE_Q3_K - 16ブロックを含むスーパーブロックでの"type-0" 3ビット量子化。各ブロックには16の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375ビット/重みが使用されます。
* GGML_TYPE_Q4_K - 8ブロックを含むスーパーブロックでの"type-1" 4ビット量子化。各ブロックには32の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5ビット/重みが使用されます。
* GGML_TYPE_Q5_K - "type-1" 5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5ビット/重みになります。
* GGML_TYPE_Q6_K - "type-0" 6ビット量子化。16ブロックを含むスーパーブロックで、各ブロックには16の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625ビット/重みが使用されます。
以下の「提供されるファイル」表を参照して、どのファイルがどの方法を使用しているかを確認してください。
提供されるファイル
🔧 技術詳細
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
謝辞
LM StudioチームやオープンソースAIに取り組んでいるすべての方々に感謝します。このREADMEは、nomic-ai-embed-text-v1.5-ggufやTheBlokeのREADMEにインスパイアされています。