Jina Embeddings V2 Base Code開源代碼文本嵌入模型 - 免費提取代碼特徵算相似度

Jina Embeddings V2 Base Code GGUF

由second-state開發

Jina Embeddings V2 Base Code 是一個基於轉換器架構的英文句子嵌入模型，專注於代碼相關文本的特徵提取和相似度計算。

下載量 315

發布時間 : 12/10/2024

模型概述

該模型主要用於生成高質量的句子嵌入，特別適用於代碼相關文本的處理，支持句子相似度計算和特徵提取任務。

長上下文支持

支持8192 tokens的長上下文處理能力

高質量嵌入

生成768維的高質量句子嵌入

代碼優化

特別針對代碼相關文本進行了優化

MTEB基準測試

在MTEB基準測試中表現優異

句子嵌入生成

文本特徵提取

句子相似度計算

代碼文本處理

代碼搜索與檢索

代碼片段相似性搜索

在代碼庫中查找語義相似的代碼片段

提高代碼複用率和開發效率

文檔處理

技術文檔聚類

對技術文檔進行自動分類和聚類

改善文檔組織和檢索效率

名稱	量化方法	比特數	大小	使用場景
jina-embeddings-v2-base-code-Q2_K.gguf	Q2_K	2	82.7 MB	最小，但質量顯著下降 - 大多數情況下不推薦使用
jina-embeddings-v2-base-code-Q3_K_L.gguf	Q3_K_L	3	101 MB	較小，質量有較大損失
jina-embeddings-v2-base-code-Q3_K_M.gguf	Q3_K_M	3	95.6 MB	非常小，質量損失高
jina-embeddings-v2-base-code-Q3_K_S.gguf	Q3_K_S	3	89.8 MB	非常小，質量損失高
jina-embeddings-v2-base-code-Q4_0.gguf	Q4_0	4	105 MB	舊版本；較小，質量損失非常高 - 建議使用 Q3_K_M
jina-embeddings-v2-base-code-Q4_K_M.gguf	Q4_K_M	4	109 MB	中等，質量平衡 - 推薦使用
jina-embeddings-v2-base-code-Q4_K_S.gguf	Q4_K_S	4	105 MB	較小，質量損失較大
jina-embeddings-v2-base-code-Q5_0.gguf	Q5_0	5	119 MB	舊版本；中等，質量平衡 - 建議使用 Q4_K_M
jina-embeddings-v2-base-code-Q5_K_M.gguf	Q5_K_M	5	121 MB	較大，質量損失非常低 - 推薦使用
jina-embeddings-v2-base-code-Q5_K_S.gguf	Q5_K_S	5	119 MB	較大，質量損失低 - 推薦使用
jina-embeddings-v2-base-code-Q6_K.gguf	Q6_K	6	134 MB	非常大，質量損失極低
jina-embeddings-v2-base-code-Q8_0.gguf	Q8_0	8	173 MB	非常大，質量損失極低 - 不推薦使用
jina-embeddings-v2-base-code-f16.gguf	f16	16	323 MB	非常大，質量損失極低 - 不推薦使用