Linq-Embed-Mistral-bnb-4bit開源嵌入模型 - 高效完成文本分類、檢索和聚類任務

首頁

Linq Embed Mistral Bnb 4bit

由ashercn97開發

Linq-Embed-Mistral 是一個基於 Mistral 架構的嵌入模型，專注於文本分類、檢索和聚類任務，在多個 MTEB 基準測試中表現出色。

文本嵌入

Transformers

英語#文本嵌入 #多任務學習 #高精度分類

下載量 147

發布時間 : 4/10/2025

模型概述

該模型主要用於生成高質量的文本嵌入，適用於多種自然語言處理任務，包括文本分類、信息檢索和文檔聚類。

模型特點

多任務性能優異

在多種自然語言處理任務上表現優異，包括分類、檢索和聚類

廣泛的基準測試覆蓋

在 MTEB 多個基準數據集上進行全面評估

高效的檢索能力

在信息檢索任務中表現出高準確率和召回率

模型能力

文本分類

信息檢索

文檔聚類

語義相似度計算

文本重排序

使用案例

電子商務

產品評論情感分析

分析亞馬遜產品評論的情感傾向

在亞馬遜極性分類任務中達到95.70%準確率

產品分類

對亞馬遜產品進行多類別分類

在亞馬遜多類別評論分類中達到57.64%準確率

金融

銀行客服分類

對銀行客戶諮詢進行分類

在Banking77數據集上達到87.88%準確率

信息檢索

問答系統

在問答系統中檢索相關文檔

在HotpotQA數據集上達到70.08%的平均精度

事實核查

檢索支持或反駁某個主張的證據

在ClimateFEVER數據集上達到31.50%的平均精度

🚀 Linq-AI-Research/Linq-Embed-Mistral (量化版)

本模型是原始模型Linq-AI-Research/Linq-Embed-Mistral的量化版本。它使用BitsAndBytes庫將模型量化為4位，藉助了bnb-my-repo空間完成量化操作。

🚀 快速開始

模型量化詳情

量化類型：int4
bnb_4bit_quant_type：nf4
bnb_4bit_use_double_quant：True
bnb_4bit_compute_dtype：bfloat16
bnb_4bit_quant_storage：uint8

原始模型信息

Linq-Embed-Mistral

Linq-Embed-Mistral 基於E5-mistral-7b-instruct和Mistral-7B-v0.1模型構建而成。我們專注於通過先進的數據精煉方法來改進文本檢索，這些方法包括精心的數據設計、數據過濾，以及在教師模型指導下進行的負樣本挖掘，並且高度針對每個任務進行定製，以提高大語言模型生成的合成數據的質量。這些方法被應用於現有的基準數據集和通過大語言模型生成的高度定製化的合成數據集。我們的主要目標是創建高質量的三元組數據集（查詢、正例、負例），從而顯著提高文本檢索性能。

截至2024年5月29日，Linq-Embed-Mistral在MTEB基準測試中表現出色。該模型在檢索任務中表現卓越，在MTEB排行榜列出的所有模型中排名第1，性能得分達到60.2。這一出色表現凸顯了其在提高搜索精度和可靠性方面的卓越能力。該模型在MTEB基準測試的56個數據集中平均得分達到68.2，成為排名最高的公開可用模型，總體排名第三。（請注意，截至5月29日，排名第1和第2的NV-Emb-v1和voyage-large-2-instruct在報告其性能時並未發佈其模型。）

本項目僅用於研究目的。第三方數據集可能需要遵循其相關許可證下的其他條款和條件。有關更多詳細信息，請參考以下具體論文：

更多詳細信息，請參考此博客文章和此報告。

✨ 主要特性

基於先進模型構建，結合了E5-mistral-7b-instruct和Mistral-7B-v0.1的優勢。
採用先進的數據精煉方法，提高合成數據質量，進而提升文本檢索性能。
在MTEB基準測試中表現優異，尤其在檢索任務中排名領先。

📦 安裝指南

文檔中未提及具體安裝步驟，可參考相關依賴庫的官方文檔進行安裝，如sentence-transformers、transformers等。

💻 使用示例

基礎用法

使用`Sentence Transformers`

from sentence_transformers import SentenceTransformer

# 加載模型
model = SentenceTransformer("Linq-AI-Research/Linq-Embed-Mistral")

# 每個查詢必須附帶一個描述任務的單句指令
task = 'Given a question, retrieve Wikipedia passages that answer the question'
prompt = f"Instruct: {task}\nQuery: "
queries = [
    "ÏµúÏ¥àÏùò ÏõêÏûêÎ†• Î∞úÏ†ÑÏÜåÎäî Î¨¥ÏóáÏù∏Í∞Ä?",
    "Who invented Hangul?"
]
passages = [
    "ÌòÑÏû¨ ÏÇ¨Ïö©ÎêòÎäî ÌïµÎ∂ÑÏó¥ Î∞©ÏãùÏùÑ Ïù¥Ïö©Ìïú Ï†ÑÎ†•ÏÉùÏÇ∞ÏùÄ 1948ÎÖÑ 9Ïõî ÎØ∏Íµ≠ ÌÖåÎÑ§ÏãúÏ£º Ïò§ÌÅ¨Î¶¨ÏßÄÏóê ÏÑ§ÏπòÎêú X-10 ÌùëÏó∞ÏõêÏûêÎ°úÏóêÏÑú Ï†ÑÍµ¨Ïùò Î∂àÏùÑ Î∞ùÌûàÎäî Îç∞ ÏÇ¨Ïö©ÎêòÎ©¥ÏÑú ÏãúÏûëÎêòÏóàÎã§. Í∑∏Î¶¨Í≥† 1954ÎÖÑ 6ÏõîÏóê Íµ¨ÏÜåÎ†®Ïùò Ïò§Î∏åÎãåÏä§ÌÅ¨Ïóê Í±¥ÏÑ§Îêú ÌùëÏó∞Í∞êÏÜç ÎπÑÎì±Í≤ΩÏàò ÏïïÎ†•Í¥ÄÌòï ÏõêÏûêÎ°úÎ•º ÏÇ¨Ïö©Ìïú Ïò§Î∏åÎãåÏä§ÌÅ¨ ÏõêÏûêÎ†• Î∞úÏ†ÑÏÜåÍ∞Ä ÏãúÌóòÏ†ÅÏúºÎ°ú Ï†ÑÎ†•ÏÉùÏÇ∞ÏùÑ ÏãúÏûëÌïòÏòÄÍ≥†, ÏµúÏ¥àÏùò ÏÉÅÏóÖÏö© ÏõêÏûêÎ†• ÏóâÎçîÏù¥Î°úÎ•º ÏÇ¨Ïö©Ìïú ÏòÅÍµ≠ ÏÖÄÎùºÌïÑÎìú ÏõêÏûêÎ†• Îã®ÏßÄÏóê ÏúÑÏπòÌïú ÏΩúÎçî ÌôÄ(Calder Hall) ÏõêÏûêÎ†• Î∞úÏ†ÑÏÜåÎ°ú, 1956ÎÖÑ 10Ïõî 17Ïùº ÏÉÅÏóÖ Ïö¥Ï†ÑÏùÑ ÏãúÏûëÌïòÏòÄÎã§.",
    "Hangul was personally created and promulgated by the fourth king of the Joseon dynasty, Sejong the Great.[1][2] Sejong's scholarly institute, the Hall of Worthies, is often credited with the work, and at least one of its scholars was heavily involved in its creation, but it appears to have also been a personal project of Sejong."
]

# 對查詢和段落進行編碼。我們僅對查詢使用提示
query_embeddings = model.encode(queries, prompt=prompt)
passage_embeddings = model.encode(passages)

# 計算（餘弦）相似度得分
scores = model.similarity(query_embeddings, passage_embeddings) * 100
print(scores.tolist())
# [[73.72908782958984, 30.122787475585938], [29.15508460998535, 79.25375366210938]]

使用`Transformers`

import torch
import torch.nn.functional as F
from torch import Tensor
from transformers import AutoTokenizer, AutoModel

def last_token_pool(last_hidden_states: Tensor,
                 attention_mask: Tensor) -> Tensor:
    left_padding = (attention_mask[:, -1].sum() == attention_mask.shape[0])
    if left_padding:
        return last_hidden_states[:, -1]
    else:
        sequence_lengths = attention_mask.sum(dim=1) - 1
        batch_size = last_hidden_states.shape[0]
        return last_hidden_states[torch.arange(batch_size, device=last_hidden_states.device), sequence_lengths]

def get_detailed_instruct(task_description: str, query: str) -> str:
    return f'Instruct: {task_description}\nQuery: {query}'

# 每個查詢必須附帶一個描述任務的單句指令
task = 'Given a question, retrieve Wikipedia passages that answer the question'
queries = [
    get_detailed_instruct(task, 'ÏµúÏ¥àÏùò ÏõêÏûêÎ†• Î∞úÏ†ÑÏÜåÎäî Î¨¥ÏóáÏù∏Í∞Ä?'),
    get_detailed_instruct(task, 'Who invented Hangul?')
]
# 檢索文檔無需添加指令
passages = [
    "ÌòÑÏû¨ ÏÇ¨Ïö©ÎêòÎäî ÌïµÎ∂ÑÏó¥ Î∞©ÏãùÏùÑ Ïù¥Ïö©Ìïú Ï†ÑÎ†•ÏÉùÏÇ∞ÏùÄ 1948ÎÖÑ 9Ïõî ÎØ∏Íµ≠ ÌÖåÎÑ§ÏãúÏ£º Ïò§ÌÅ¨Î¶¨ÏßÄÏóê ÏÑ§ÏπòÎêú X-10 ÌùëÏó∞ÏõêÏûêÎ°úÏóêÏÑú Ï†ÑÍµ¨Ïùò Î∂àÏùÑ Î∞ùÌûàÎäî Îç∞ ÏÇ¨Ïö©ÎêòÎ©¥ÏÑú ÏãúÏûëÎêòÏóàÎã§. Í∑∏Î¶¨Í≥† 1954ÎÖÑ 6ÏõîÏóê Íµ¨ÏÜåÎ†®Ïùò Ïò§Î∏åÎãåÏä§ÌÅ¨Ïóê Í±¥ÏÑ§Îêú ÌùëÏó∞Í∞êÏÜç ÎπÑÎì±Í≤ΩÏàò ÏïïÎ†•Í¥ÄÌòï ÏõêÏûêÎ°úÎ•º ÏÇ¨Ïö©Ìïú Ïò§Î∏åÎãåÏä§ÌÅ¨ ÏõêÏûêÎ†• Î∞úÏ†ÑÏÜåÍ∞Ä ÏãúÌóòÏ†ÅÏúºÎ°ú Ï†ÑÎ†•ÏÉùÏÇ∞ÏùÑ ÏãúÏûëÌïòÏòÄÍ≥†, ÏµúÏ¥àÏùò ÏÉÅÏóÖÏö© ÏõêÏûêÎ†• ÏóâÎçîÏù¥Î°úÎ•º ÏÇ¨Ïö©Ìïú ÏòÅÍµ≠ ÏÖÄÎùºÌïÑÎìú ÏõêÏûêÎ†• Îã®ÏßÄÏóê ÏúÑÏπòÌïú ÏΩúÎçî ÌôÄ(Calder Hall) ÏõêÏûêÎ†• Î∞úÏ†ÑÏÜåÎ°ú, 1956ÎÖÑ 10Ïõî 17Ïùº ÏÉÅÏóÖ Ïö¥Ï†ÑÏùÑ ÏãúÏûëÌïòÏòÄÎã§.",
    "Hangul was personally created and promulgated by the fourth king of the Joseon dynasty, Sejong the Great.[1][2] Sejong's scholarly institute, the Hall of Worthies, is often credited with the work, and at least one of its scholars was heavily involved in its creation, but it appears to have also been a personal project of Sejong."
]

# 加載模型和分詞器
tokenizer = AutoTokenizer.from_pretrained('Linq-AI-Research/Linq-Embed-Mistral')
model = AutoModel.from_pretrained('Linq-AI-Research/Linq-Embed-Mistral')

max_length = 4096
input_texts = [*queries, *passages]
# 對輸入文本進行分詞
batch_dict = tokenizer(input_texts, max_length=max_length, padding=True, truncation=True, return_tensors="pt")
outputs = model(**batch_dict)
embeddings = last_token_pool(outputs.last_hidden_state, batch_dict['attention_mask'])

# 歸一化嵌入向量
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:2] @ embeddings[2:].T) * 100
print(scores.tolist())
# [[73.72909545898438, 30.122783660888672], [29.155078887939453, 79.25374603271484]]

高級用法

MTEB基準測試評估

參考unilm/e5來複現BEIR和MTEB基準測試的評估結果。

🔧 技術細節

Linq-Embed-Mistral通過先進的數據精煉方法來改進文本檢索。具體包括精心的數據設計、數據過濾，以及在教師模型指導下進行的負樣本挖掘。這些方法被應用於現有的基準數據集和通過大語言模型生成的高度定製化的合成數據集，旨在創建高質量的三元組數據集（查詢、正例、負例），從而顯著提高文本檢索性能。

📚 詳細文檔

評估結果

MTEB（截至2024年5月29日）

模型名稱	檢索（15個數據集）	平均（56個數據集）
Linq-Embed-Mistral	60.2	68.2
NV-Embed-v1	59.4	69.3
SFR-Embedding-Mistral	59.0	67.6
voyage-large-2-instruct	58.3	68.3
GritLM-7B	57.4	66.8
voyage-lite-02-instruct	56.6	67.1
gte-Qwen1.5-7B-instruct	56.2	67.3
e5-mistral-7b-instruct	56.9	66.6
google-gecko.text-embedding-preview-0409	55.7	66.3
text-embedding-3-large	55.4	64.6
Cohere-embed-english-v3.0	55.0	64.5

📄 許可證

本項目採用CC BY-NC 4.0許可證。

研究團隊

引用

@misc{LinqAIResearch2024,
  title={Linq-Embed-Mistral:Elevating Text Retrieval with Improved GPT Data Through Task-Specific Control and Quality Refinement},
  author={Junseong Kim, Seolhwa Lee, Jihoon Kwon, Sangmo Gu, Yejin Kim, Minkyung Cho, Jy-yong Sohn, Chanyeol Choi},
  howpublished={Linq AI Research Blog},
  year={2024},
  url={https://getlinq.com/blog/linq-embed-mistral/}
}