gte-large-ggufオープンソーステキスト埋め込みモデル - 情報検索と意味的類似度分析に無料でデプロイ可能

ホーム

Gte Large Gguf

ChristianAzinnによって開発

汎用テキスト埋め込み（GTE）モデルのGGUFフォーマット版で、情報検索や意味的テキスト類似性などのタスクに適しています。

テキスト埋め込み英語オープンソースライセンス:MIT #汎用テキスト埋め込み #マルチドメイン検索 #意味的類似性

ダウンロード数 184

リリース時間 : 4/7/2024

モデル概要

GTE-largeはBERTフレームワークで訓練された汎用テキスト埋め込みモデルで、512トークンのコンテキスト長をサポートし、様々なテキスト処理タスクに適しています。

モデル特徴

多段階対照学習

多段階対照学習による訓練で、テキスト埋め込みの品質と汎化能力を向上させます。

広範な領域カバレッジ

大規模な関連性テキストペアコーパスで訓練されており、広範な領域とシナリオをカバーしています。

複数の量子化バージョン

2ビットから32ビットまでの複数の量子化バージョンを提供し、様々なハードウェアと性能ニーズに対応します。

モデル能力

テキスト埋め込み生成

意味的テキスト類似性計算

情報検索

テキスト再ランキング

使用事例

情報検索

検索クエリ埋め込み

検索クエリを埋め込みベクトルに変換し、検索結果の関連性を向上させます。

テキスト類似性

文書類似性計算

2つのテキストの意味的類似性を計算し、コンテンツの重複排除や推薦システムに利用します。

🚀 gte-large-gguf

このモデルは、General Text Embeddings (GTE) の大規模バージョンをGGUF形式に変換したもので、テキスト埋め込みタスクに最適化されています。

🚀 クイックスタート

このモデルは、テキスト埋め込みを生成するためのものです。以下の手順で使用を開始できます。

llama.cppを使用した例

単一の埋め込みを計算するには、llama.cppをビルドして以下のコマンドを実行します。

./embedding -ngl 99 -m [filepath-to-gguf].gguf -p 'search_query: What is TSNE?'

また、トークンの総数がコンテキスト長を超えない限り、複数のテキストをまとめて埋め込みを計算することもできます。 texts.txt ファイルに以下の内容を記述します。

search_query: What is TSNE?
search_query: Who is Laurens Van der Maaten?

複数の埋め込みを計算するには、以下のコマンドを実行します。

./embedding -ngl 99 -m [filepath-to-gguf].gguf -f texts.txt

LM Studioを使用した例

以下のリンクから0.2.19ベータ版をダウンロードします。 Windows MacOS Linux

インストール後、アプリを開きます。ホーム画面は以下のように表示されます。 image/png

メイン検索バーで "ChristianAzinn" を検索するか、左側のメニューの "Search" タブを開いて同じ名前を検索します。 image/png

表示されたモデルから選択し（この例では bge-small-en-v1.5-gguf を使用）、ダウンロードする量子化方式を選択します。このモデルは比較的小さいため、Q8_0をおすすめします。一般的に、リストの下に行くほど（または数字が大きくなるほど）、ファイルサイズは大きくなり、パフォーマンスは向上します。 image/png

モデルのダウンロードが成功すると、緑色のチェックマークと "Downloaded" という文字が表示されます。ネットワーク速度によっては時間がかかる場合があります。 image/png

モデルのダウンロードが完了したら、左側のメニューの "Local Server" タブを開き、テキスト埋め込みモデルのローダーを開きます。このローダーはバージョン0.2.19より前では表示されないため、正しいバージョンをダウンロードしていることを確認してください。 image/png

表示されるドロップダウンから先ほどダウンロードしたモデルを選択してロードします。VRAMに収まらない場合は、右側のメニューでGPUオフロードなどの設定を調整する必要がある場合があります。 image/png

最後に、"Start Server" ボタンをクリックします。 image/png

コンソールに以下のようなテキストが表示されれば、使用可能です。これをOpenAIの埋め込みAPIの代替として、埋め込みAPIを必要とするアプリケーションで使用することができます。また、エンドポイントに直接クエリを送信してテストすることもできます。 image/png

APIエンドポイントへの例としてのcurlリクエストは以下の通りです。

curl http://localhost:1234/v1/embeddings \
  -H "Content-Type: application/json" \
  -d '{
    "input": "Your text string goes here",
    "model": "model-identifier-here"
  }'

詳細については、LM Studioのテキスト埋め込みドキュメントを参照してください。

✨ 主な機能

多様な量子化方式：複数の量子化方式が提供されており、メモリ使用量と精度のバランスを調整できます。
広範な互換性：llama.cppとLM Studioに対応しており、既存のツールとシームレスに統合できます。
大規模コーパスでの学習：大規模な関連テキストペアのコーパスで学習されており、様々なドメインとシナリオに対応しています。

📦 インストール

このモデルは、Hugging Faceから直接ダウンロードできます。必要な量子化方式のファイルを選択してダウンロードしてください。

📚 ドキュメント

元の説明

General Text Embeddings (GTE) モデルです。Towards General Text Embeddings with Multi-stage Contrastive Learning

GTEモデルはアリババのDAMO Academyによって開発され、主にBERTフレームワークに基づいています。現在、GTE-large、GTE-base、GTE-smallの3種類のサイズのモデルが提供されています。GTEモデルは大規模な関連テキストペアのコーパスで学習されており、幅広いドメインやシナリオをカバーしています。これにより、GTEモデルは情報検索、意味的なテキスト類似性、テキストの再ランキングなど、様々なテキスト埋め込みの下流タスクに適用できます。

説明

このリポジトリには、gte-large埋め込みモデルのGGUF形式のファイルが含まれています。

これらのファイルは、llama.cppのPR 5500、コミット 34aa045de を使用して、消費者向けのRTX 4090で変換および量子化されました。

このモデルは、最大512トークンのコンテキストをサポートしています。

互換性

これらのファイルは、コミット 4524290e8 以降の llama.cpp およびバージョン0.2.19以降の LM Studio と互換性があります。

メタ情報

量子化方法の説明

詳細を表示するにはクリック

利用可能な方法は以下の通りです。 * GGML_TYPE_Q2_K - 16ブロックを含むスーパーブロックでの「タイプ1」の2ビット量子化。各ブロックには16の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、実質的に重みあたり2.5625ビット (bpw) が使用されます。 * GGML_TYPE_Q3_K - 16ブロックを含むスーパーブロックでの「タイプ0」の3ビット量子化。各ブロックには16の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375 bpwが使用されます。 * GGML_TYPE_Q4_K - 8ブロックを含むスーパーブロックでの「タイプ1」の4ビット量子化。各ブロックには32の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5 bpwが使用されます。 * GGML_TYPE_Q5_K - 「タイプ1」の5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5 bpwになります。 * GGML_TYPE_Q6_K - 「タイプ0」の6ビット量子化。16ブロックのスーパーブロックで、各ブロックには16の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625 bpwが使用されます。

以下の「提供されるファイル」表を参照して、どのファイルがどの方法を使用しているかを確認してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	必要な最大RAM
gte-large.Q2_K.gguf	Q2_K	2	144 MB	最も小さいが、品質が大きく損なわれる - ほとんどの目的には推奨されない
gte-large.Q3_K_S.gguf	Q3_K_S	3	160 MB	非常に小さいが、品質が大きく損なわれる
gte-large.Q3_K_M.gguf	Q3_K_M	3	181 mB	非常に小さいが、品質が大きく損なわれる
gte-large.Q3_K_L.gguf	Q3_K_L	3	198 MB	小さいが、品質が大幅に損なわれる
gte-large.Q4_0.gguf	Q4_0	4	200 MB	旧バージョン; 小さいが、品質が非常に大きく損なわれる - Q3_K_Mを使用することを推奨
gte-large.Q4_K_S.gguf	Q4_K_S	4	203 MB	小さいが、品質が大きく損なわれる
gte-large.Q4_K_M.gguf	Q4_K_M	4	216 MB	中程度で、品質がバランス良く - 推奨
gte-large.Q5_0.gguf	Q5_0	5	237 MB	旧バージョン; 中程度で、品質がバランス良く - Q4_K_Mを使用することを推奨
gte-large.Q5_K_S.gguf	Q5_K_S	5	237 MB	大きいが、品質の損失が少ない - 推奨
gte-large.Q5_K_M.gguf	Q5_K_M	5	246 MB	大きいが、品質の損失が非常に少ない - 推奨
gte-large.Q6_K.gguf	Q6_K	6	278 MB	非常に大きいが、品質の損失が極めて少ない
gte-large.Q8_0.gguf	Q8_0	8	358 MB	非常に大きいが、品質の損失が極めて少ない - 推奨
gte-large.Q8_0.gguf	FP16	16	670 MB	非常に大きい、ほぼ元のモデル - 推奨されない
gte-large.Q8_0.gguf	FP32	32	1.34 GB	非常に大きい、ほぼ元のモデル - 推奨されない