🚀 e5-base-v2-gguf
本項目提供了e5-base-v2嵌入模型的GGUF格式文件,可用於句子相似度計算等任務,支持最大512個標記的上下文,且與llama.cpp和LM Studio兼容。
🚀 快速開始
使用llama.cpp
計算嵌入
要計算單個嵌入,需先構建llama.cpp
,然後運行以下命令:
./embedding -ngl 99 -m [filepath-to-gguf].gguf -p 'search_query: What is TSNE?'
你也可以提交一批文本進行嵌入計算,只要總標記數不超過上下文長度。embedding
示例僅顯示前三個嵌入。
texts.txt
文件內容如下:
search_query: What is TSNE?
search_query: Who is Laurens Van der Maaten?
計算多個嵌入的命令:
./embedding -ngl 99 -m [filepath-to-gguf].gguf -f texts.txt
使用LM Studio
- 從以下鏈接下載0.2.19測試版:Windows MacOS Linux
- 安裝完成後打開應用程序,在主搜索欄中搜索“ChristianAzinn”,或者在左側菜單的“搜索”標籤中搜索該名稱。
- 從搜索結果中選擇你的模型(本示例使用
bge-small-en-v1.5-gguf
),並選擇要下載的量化版本。由於該模型較小,建議選擇Q8_0,如果條件允許也可選擇f16/32。
- 模型下載成功後,你會看到一個綠色對勾和“已下載”字樣,下載時間取決於你的網絡速度。
- 模型下載完成後,導航到左側菜單的“本地服務器”標籤,打開文本嵌入模型的加載器(該加載器在0.2.19版本之前不會顯示,確保下載了正確的版本)。
- 從下拉列表中選擇你剛剛下載的模型進行加載。如果模型無法完全裝入顯存,可能需要在右側菜單中調整配置,如GPU卸載。
- 點擊“啟動服務器”按鈕。如果在控制檯中看到如下文本,就可以使用了!你可以在任何需要的應用程序中直接替換OpenAI嵌入API,或者直接查詢端點進行測試。
示例curl請求:
curl http://localhost:1234/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"input": "Your text string goes here",
"model": "model-identifier-here"
}'
更多信息請參閱LM Studio 文本嵌入文檔。
✨ 主要特性
📦 安裝指南
文檔未提及具體安裝步驟,可參考上述快速開始部分的使用說明。
💻 使用示例
基礎用法
使用llama.cpp
計算單個嵌入:
./embedding -ngl 99 -m [filepath-to-gguf].gguf -p 'search_query: What is TSNE?'
高級用法
使用llama.cpp
計算多個嵌入:
./embedding -ngl 99 -m [filepath-to-gguf].gguf -f texts.txt
使用LM Studio進行文本嵌入計算:
curl http://localhost:1234/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"input": "Your text string goes here",
"model": "model-identifier-here"
}'
📚 詳細文檔
模型信息
模型描述
本倉庫包含e5-base-v2嵌入模型的GGUF格式文件。這些文件是使用llama.cpp PR 5500,提交 34aa045de,在消費級RTX 4090上進行轉換和量化的。該模型支持最大512個標記的上下文。
兼容性
這些文件與llama.cpp(截至提交4524290e8)以及LM Studio(截至版本0.2.19)兼容。
量化方法說明
點擊查看詳情
可用的量化方法如下:
* GGML_TYPE_Q2_K - “type-1” 2位量化,超級塊包含16個塊,每個塊有16個權重。塊的縮放和最小值用4位量化。最終每個權重有效使用2.5625位(bpw)。
* GGML_TYPE_Q3_K - “type-0” 3位量化,超級塊包含16個塊,每個塊有16個權重。縮放用6位量化。最終使用3.4375 bpw。
* GGML_TYPE_Q4_K - “type-1” 4位量化,超級塊包含8個塊,每個塊有32個權重。縮放和最小值用6位量化。最終使用4.5 bpw。
* GGML_TYPE_Q5_K - “type-1” 5位量化。與GGML_TYPE_Q4_K具有相同的超級塊結構,最終使用5.5 bpw。
* GGML_TYPE_Q6_K - “type-0” 6位量化。超級塊有16個塊,每個塊有16個權重。縮放用8位量化。最終使用6.5625 bpw。
請參考下面的“提供的文件”表格,瞭解哪些文件使用了哪些方法以及如何使用。
提供的文件
🔧 技術細節
本模型基於論文Text Embeddings by Weakly-Supervised Contrastive Pre-training,由Liang Wang、Nan Yang、Xiaolong Huang、Binxing Jiao、Linjun Yang、Daxin Jiang、Rangan Majumder、Furu Wei於2022年發表在arXiv上。該模型有12層,嵌入大小為768。
📄 許可證
本項目採用MIT許可證。
🙏 致謝
感謝LM Studio團隊和所有從事開源AI工作的人員。
本README受nomic-ai-embed-text-v1.5-gguf(另一個優秀的嵌入模型)和傳奇人物TheBloke的README啟發。