stella-large-zh-v2開源中文模型 - 免費實現句子相似度計算及文本分類

首頁

Stella Large Zh V2

由infgrad開發

stella-large-zh-v2 是一個專注於句子相似度計算的中文模型，支持多種語義文本相似度任務和文本分類任務。

文本嵌入

PyTorch

#金融問答相似度 #多任務評估 #中文語義理解

下載量 259

發布時間 : 10/13/2023

模型概述

該模型主要用於句子相似度計算、文本分類、文本聚類和重排序等任務，在多箇中文評估基準上表現出色。

模型特點

多任務評估基準支持

在多箇中文多任務評估基準（如MTEB）上表現優異，涵蓋語義文本相似度、文本分類、文本聚類和重排序等任務。

高性能句子相似度計算

在螞蟻金融問答、ATEC、銀行問答等數據集上，句子相似度計算性能突出，支持多種距離度量（餘弦相似度、歐氏距離、曼哈頓距離）。

強大的重排序能力

在CMedQAv1和CMedQAv2重排序任務中，平均準確率和平均倒數排名均超過85%，表現優異。

模型能力

句子相似度計算

文本分類

文本聚類

重排序

檢索

使用案例

金融領域

金融問答系統

用於金融領域的問答系統，計算用戶問題與候選答案的相似度。

在螞蟻金融問答數據集上，餘弦相似度皮爾遜值為47.34，斯皮爾曼值為49.94。

銀行客服問答

用於銀行客服系統中的問答匹配和相似度計算。

在銀行問答數據集上，餘弦相似度皮爾遜值為62.83，斯皮爾曼值為65.53。

醫療領域

醫療問答重排序

用於醫療問答系統中的答案重排序，提升答案的相關性。

在CMedQAv1和CMedQAv2重排序任務中，平均準確率分別為85.44和85.82。

新冠信息檢索

用於新冠相關信息的檢索和排序。

在新冠檢索任務中，首位平均準確率為68.86，前十平均準確率為77.10。

通用文本處理

文本分類

用於通用文本分類任務，如亞馬遜評論分類。

在亞馬遜評論分類（中文）任務中，準確率為40.81，F1分數為39.02。

文本聚類

用於文本聚類任務，如CLS點對點和句對句聚類。

在CLS點對點聚類任務中，V度量為39.95；在句對句聚類任務中，V度量為38.18。

🚀 stella模型

stella是一個通用的文本編碼模型，可將文本轉換為向量表示，用於檢索、語義匹配等自然語言處理任務。它提供了多種不同版本的模型，以滿足不同的應用場景和需求。

🚀 快速開始

安裝依賴庫

使用stella模型前，需要安裝sentence-transformers和transformers庫，可使用以下命令進行安裝：

pip install sentence-transformers transformers

使用示例

以下是使用sentence-transformers庫調用stella-base-zh-v2模型的示例代碼：

from sentence_transformers import SentenceTransformer

sentences = ["數據1", "數據2"]
model = SentenceTransformer('infgrad/stella-base-zh-v2')
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

直接使用transformers庫

from transformers import AutoModel, AutoTokenizer
from sklearn.preprocessing import normalize

model = AutoModel.from_pretrained('infgrad/stella-base-zh-v2')
tokenizer = AutoTokenizer.from_pretrained('infgrad/stella-base-zh-v2')
sentences = ["數據1", "數據ABCDEFGH"]
batch_data = tokenizer(
    batch_text_or_text_pairs=sentences,
    padding="longest",
    return_tensors="pt",
    max_length=1024,
    truncation=True,
)
attention_mask = batch_data["attention_mask"]
model_output = model(**batch_data)
last_hidden = model_output.last_hidden_state.masked_fill(~attention_mask[..., None].bool(), 0.0)
vectors = last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]
vectors = normalize(vectors, norm="l2", axis=1, )
print(vectors.shape)  # 2,768

✨ 主要特性

多語言支持：提供英文和中文版本的模型，滿足不同語言的使用需求。
使用簡單：部分模型（如stella-base-en-v2、stella-base-zh-v2和stella-large-zh-v2）不需要任何前綴文本。
向量維度可變：部分模型支持向量可變維度，如stella-mrl-large-zh-v3.5-1792d。
效果優異：在多個基準測試中表現出色，如C-MTEB和MTEB排行榜。

📦 安裝指南

使用pip安裝所需的依賴庫：

pip install sentence-transformers transformers numpy torch

💻 使用示例

基礎用法

stella 中文系列模型

stella-base-zh 和 stella-large-zh：用法和piccolo完全一致，即在檢索重排任務上給query和passage加上查詢: 和結果: 。對於短短匹配不需要做任何操作。
stella-base-zh-v2 和 stella-large-zh-v2：任何使用場景中都不需要加前綴文本。

from sentence_transformers import SentenceTransformer

sentences = ["數據1", "數據2"]
model = SentenceTransformer('infgrad/stella-base-zh-v2')
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

高級用法

使用transformers庫直接調用模型：

from transformers import AutoModel, AutoTokenizer
from sklearn.preprocessing import normalize

model = AutoModel.from_pretrained('infgrad/stella-base-zh-v2')
tokenizer = AutoTokenizer.from_pretrained('infgrad/stella-base-zh-v2')
sentences = ["數據1", "數據ABCDEFGH"]
batch_data = tokenizer(
    batch_text_or_text_pairs=sentences,
    padding="longest",
    return_tensors="pt",
    max_length=1024,
    truncation=True,
)
attention_mask = batch_data["attention_mask"]
model_output = model(**batch_data)
last_hidden = model_output.last_hidden_state.masked_fill(~attention_mask[..., None].bool(), 0.0)
vectors = last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]
vectors = normalize(vectors, norm="l2", axis=1, )
print(vectors.shape)  # 2,768

stella 英文系列模型

from sentence_transformers import SentenceTransformer

sentences = ["one car come", "one car go"]
model = SentenceTransformer('infgrad/stella-base-en-v2')
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

直接使用HuggingFace Transformers

from transformers import AutoModel, AutoTokenizer
from sklearn.preprocessing import normalize

model = AutoModel.from_pretrained('infgrad/stella-base-en-v2')
tokenizer = AutoTokenizer.from_pretrained('infgrad/stella-base-en-v2')
sentences = ["one car come", "one car go"]
batch_data = tokenizer(
    batch_text_or_text_pairs=sentences,
    padding="longest",
    return_tensors="pt",
    max_length=512,
    truncation=True,
)
attention_mask = batch_data["attention_mask"]
model_output = model(**batch_data)
last_hidden = model_output.last_hidden_state.masked_fill(~attention_mask[..., None].bool(), 0.0)
vectors = last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]
vectors = normalize(vectors, norm="l2", axis=1, )
print(vectors.shape)  # 2,768

📚 詳細文檔

模型信息

屬性	詳情
模型類型	文本編碼模型
支持語言	英文、中文
模型版本	stella-base-en-v2、stella-base-zh-v2、stella-large-zh-v2等

模型列表

模型名稱	模型大小 (GB)	維度	序列長度	語言	檢索是否需要指令？
stella-base-en-v2	0.2	768	512	英文	否
stella-large-zh-v2	0.65	1024	1024	中文	否
stella-base-zh-v2	0.2	768	1024	中文	否
stella-large-zh	0.65	1024	1024	中文	是
stella-base-zh	0.2	768	1024	中文	是

訓練數據

開源訓練數據（wudao_base_200GB、m3e和simclue），著重挑選了長度大於512的文本。
在通用語料庫上使用大語言模型（LLM）構造的一批(question, paragraph)和(sentence, paragraph)數據。

損失函數

對比學習損失函數
帶有難負例的對比學習損失函數（基於bm25和向量構造難負例）
EWC（彈性權重整合）
cosent損失

模型權重初始化

stella-base-zh和stella-large-zh分別以piccolo-base-zh和piccolo-large-zh作為基礎模型，512 - 1024的位置嵌入使用層次分解位置編碼進行初始化。

訓練策略

每種類型的數據使用一個迭代器，分別計算損失。

模型改進

基於stella模型，stella-v2使用了更多的訓練數據，並通過知識蒸餾去除了指令。

🔧 技術細節

訓練環境

硬件：單卡A100 - 80GB
環境：torch1.13.*；transformers-trainer + deepspeed + gradient-checkpointing
學習率：1e - 6
batch_size：base模型為1024，額外增加20%的難負例；large模型為768，額外增加20%的難負例
數據量：第一版模型約100萬，其中用LLM構造的數據約有200K。LLM模型大小為13B。v2系列模型到了2000萬訓練數據。

評測指標

C-MTEB排行榜（中文）

模型名稱	模型大小 (GB)	維度	序列長度	平均得分 (35)	分類得分 (9)	聚類得分 (4)	成對分類得分 (2)	重排得分 (4)	檢索得分 (8)	STS得分 (8)
stella-large-zh-v2	0.65	1024	1024	65.13	69.05	49.16	82.68	66.41	70.14	58.66
stella-base-zh-v2	0.2	768	1024	64.36	68.29	49.4	79.95	66.1	70.08	56.92
stella-large-zh	0.65	1024	1024	64.54	67.62	48.65	78.72	65.98	71.02	58.3
stella-base-zh	0.2	768	1024	64.16	67.77	48.7	76.09	66.95	71.07	56.54

MTEB排行榜（英文）

模型名稱	模型大小 (GB)	維度	序列長度	平均得分 (56)	分類得分 (12)	聚類得分 (11)	成對分類得分 (3)	重排得分 (4)	檢索得分 (15)	STS得分 (10)	摘要得分 (1)
stella-base-en-v2	0.2	768	512	62.61	75.28	44.9	86.45	58.77	50.1	83.02	32.52

長文本評測

現有數據集存在兩個問題：

長度大於512的文本過少。
即便文本長度大於512，對於檢索而言也只需要前512的文本內容，導致無法準確評估模型的長文本編碼能力。

為了解決這個問題，蒐集了相關開源數據並使用規則進行過濾，最終整理了6份長文本測試集：

CMRC2018，通用百科
CAIL，法律閱讀理解
DRCD，繁體百科，已轉簡體
Military，軍工問答
Squad，英文閱讀理解，已轉中文
Multifieldqa_zh，清華的大模型長文本理解能力評測數據

處理規則是選取答案在512長度之後的文本，短的測試數據會欠採樣，長短文本佔比約為1:2，所以模型既得理解短文本也得理解長文本。除了Military數據集，提供了其他5個測試數據的下載地址：點擊下載

評測指標為Recall@5，結果如下：

數據集	piccolo-base-zh	piccolo-large-zh	bge-base-zh	bge-large-zh	stella-base-zh	stella-large-zh
CMRC2018	94.34	93.82	91.56	93.12	96.08	95.56
CAIL	28.04	33.64	31.22	33.94	34.62	37.18
DRCD	78.25	77.9	78.34	80.26	86.14	84.58
Military	76.61	73.06	75.65	75.81	83.71	80.48
Squad	91.21	86.61	87.87	90.38	93.31	91.21
Multifieldqa_zh	81.41	83.92	83.92	83.42	79.9	80.4
平均得分	74.98	74.83	74.76	76.15	78.96	78.24

待解決問題

評測的穩定性：評測過程中發現Clustering任務會和官方的結果不一致，大約有±0.0x的小差距，原因是聚類代碼沒有設置random_seed，差距可以忽略不計，不影響評測結論。
更高質量的長文本訓練和測試數據：訓練數據多是用13B模型構造的，可能存在噪聲。測試數據基本都是從閱讀理解（MRC）數據整理來的，問題都是事實性（factoid）類型，不符合真實分佈。
OOD的性能：雖然近期出現了很多向量編碼模型，但是對於不是那麼通用的領域，包括stella、openai和cohere等模型的效果均比不上BM25。

📄 許可證

文檔中未提及相關許可證信息。

新聞資訊

[2024-04-06] 開源puff系列模型，專門針對檢索和語義匹配任務，更多地考慮泛化性和私有通用測試集效果，向量維度可變，支持中英雙語。
[2024-02-27] 開源stella-mrl-large-zh-v3.5-1792d模型，支持向量可變維度。
[2024-02-17] 開源stella v3系列、對話編碼模型和相關訓練數據。
[2023-10-19] 開源stella-base-en-v2，使用簡單，不需要任何前綴文本。
[2023-10-12] 開源stella-base-zh-v2和stella-large-zh-v2，效果更好且使用簡單，不需要任何前綴文本。
[2023-09-11] 開源stella-base-zh和stella-large-zh