text2vec-bge-large-chinese開源模型 - 支持文本匹配、搜索的中文語義處理工具

首頁

Text2vec Bge Large Chinese

由shibing624開發

基於CoSENT算法的中文語義匹配模型，可將句子映射至1024維稠密向量空間，適用於句子嵌入、文本匹配或語義搜索等任務。

文本嵌入

Transformers

中文開源協議:Apache-2.0 #中文語義匹配 #1024維向量 #長文本優化

下載量 1,791

發布時間 : 9/4/2023

模型概述

該模型採用CoSENT方法訓練，基於BAAI/bge-large-zh-noinstruct模型，在中文STS數據集上微調，適用於中文句子級語義匹配任務。

模型特點

高效語義匹配

採用CoSENT方法訓練，優化了中文句子相似度計算效果

大模型基礎

基於BAAI/bge-large-zh-noinstruct模型微調，具備強大的語義理解能力

長文本處理

支持最大256個token的序列長度，適合處理句子和短段落

模型能力

句子嵌入

文本匹配

語義搜索

信息檢索

文本聚類

使用案例

智能客服

問題相似度匹配

匹配用戶問題與知識庫中的相似問題

提高客服響應速度和準確率

搜索引擎

語義搜索

理解用戶查詢意圖，返回語義相關結果

提升搜索相關性

🚀 shibing624/text2vec-bge-large-chinese

這是一個CoSENT（餘弦句子）模型：shibing624/text2vec-bge-large-chinese。它能將句子映射到一個1024維的密集向量空間，可用於句子嵌入、文本匹配或語義搜索等任務。

🚀 快速開始

若要使用此模型，你可以通過以下兩種方式進行：

使用text2vec庫

首先安裝 text2vec：

pip install -U text2vec

然後按如下方式使用模型：

from text2vec import SentenceModel
sentences = ['如何更換花唄綁定銀行卡', '花唄更改綁定銀行卡']

model = SentenceModel('shibing624/text2vec-bge-large-chinese')
embeddings = model.encode(sentences)
print(embeddings)

使用HuggingFace Transformers庫

若未安裝 text2vec，你可以按以下步驟操作。首先安裝transformers庫：

pip install transformers

接著加載模型並進行預測：

from transformers import BertTokenizer, BertModel
import torch

# Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]  # First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# Load model from HuggingFace Hub
tokenizer = BertTokenizer.from_pretrained('shibing624/text2vec-bge-large-chinese')
model = BertModel.from_pretrained('shibing624/text2vec-bge-large-chinese')
sentences = ['如何更換花唄綁定銀行卡', '花唄更改綁定銀行卡']
# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)
# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
print("Sentence embeddings:")
print(sentence_embeddings)

使用sentence-transformers庫

sentence-transformers 是一個流行的用於計算句子密集向量表示的庫。首先安裝它：

pip install -U sentence-transformers

然後加載模型並進行預測：

from sentence_transformers import SentenceTransformer

m = SentenceTransformer("shibing624/text2vec-bge-large-chinese")
sentences = ['如何更換花唄綁定銀行卡', '花唄更改綁定銀行卡']

sentence_embeddings = m.encode(sentences)
print("Sentence embeddings:")
print(sentence_embeddings)

✨ 主要特性

向量映射：能將句子映射到1024維的密集向量空間。
多任務適用：可用於句子嵌入、文本匹配或語義搜索等任務。
效果提升：在中文測試集評估中，相對於原模型效果有提升，在短文本區分度上提升明顯。

📦 安裝指南

若使用 text2vec 庫，可通過以下命令安裝：

pip install -U text2vec

若使用HuggingFace Transformers庫，安裝命令如下：

pip install transformers

若使用sentence-transformers庫，安裝命令為：

pip install -U sentence-transformers

💻 使用示例

基礎用法

from text2vec import SentenceModel
sentences = ['如何更換花唄綁定銀行卡', '花唄更改綁定銀行卡']

model = SentenceModel('shibing624/text2vec-bge-large-chinese')
embeddings = model.encode(sentences)
print(embeddings)

📚 詳細文檔

模型信息

屬性	詳情
模型類型	CoSENT（餘弦句子）模型
訓練數據	https://huggingface.co/datasets/shibing624/nli-zh-all/tree/main/text2vec-base-chinese-paraphrase-dataset
基礎模型	https://huggingface.co/BAAI/bge-large-zh-noinstruct
最大序列長度	256
最佳訓練輪數	4
句子嵌入維度	1024

評估

要對該模型進行自動評估，請參考 評估基準：text2vec。

發佈模型

本項目release模型的中文匹配評測結果如下：

架構	基礎模型	模型	ATEC	BQ	LCQMC	PAWSX	STS-B	SOHU-dd	SOHU-dc	平均	QPS
Word2Vec	word2vec	w2v-light-tencent-chinese	20.00	31.49	59.46	2.57	55.78	55.04	20.70	35.03	23769
SBERT	xlm-roberta-base	sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2	18.42	38.52	63.96	10.14	78.90	63.01	52.28	46.46	3138
CoSENT	hfl/chinese-macbert-base	shibing624/text2vec-base-chinese	31.93	42.67	70.16	17.21	79.30	70.27	50.42	51.61	3008
CoSENT	hfl/chinese-lert-large	GanymedeNil/text2vec-large-chinese	32.61	44.59	69.30	14.51	79.44	73.01	59.04	53.12	2092
CoSENT	nghuyong/ernie-3.0-base-zh	shibing624/text2vec-base-chinese-sentence	43.37	61.43	73.48	38.90	78.25	70.60	53.08	59.87	3089
CoSENT	nghuyong/ernie-3.0-base-zh	shibing624/text2vec-base-chinese-paraphrase	44.89	63.58	74.24	40.90	78.93	76.70	63.30	63.08	3066
CoSENT	sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2	shibing624/text2vec-base-multilingual	32.39	50.33	65.64	32.56	74.45	68.88	51.17	53.67	3138
CoSENT	BAAI/bge-large-zh-noinstruct	shibing624/text2vec-bge-large-chinese	38.41	61.34	71.72	35.15	76.44	71.81	63.15	59.72	844

說明：

結果評測指標：spearman係數。
shibing624/text2vec-base-chinese 模型，是用CoSENT方法訓練，基於hfl/chinese-macbert-base在中文STS - B數據訓練得到，並在中文STS - B測試集評估達到較好效果，運行 examples/training_sup_text_matching_model.py 代碼可訓練模型，模型文件已經上傳HF model hub，中文通用語義匹配任務推薦使用。
shibing624/text2vec-base-chinese-sentence 模型，是用CoSENT方法訓練，基於nghuyong/ernie-3.0-base-zh用人工挑選後的中文STS數據集 shibing624/nli-zh-all/text2vec-base-chinese-sentence-dataset 訓練得到，並在中文各NLI測試集評估達到較好效果，運行 examples/training_sup_text_matching_model_jsonl_data.py 代碼可訓練模型，模型文件已經上傳HF model hub，中文s2s（句子vs句子）語義匹配任務推薦使用。
shibing624/text2vec-base-chinese-paraphrase 模型，是用CoSENT方法訓練，基於nghuyong/ernie-3.0-base-zh用人工挑選後的中文STS數據集 shibing624/nli-zh-all/text2vec-base-chinese-paraphrase-dataset，數據集相對於 shibing624/nli-zh-all/text2vec-base-chinese-sentence-dataset 加入了s2p（sentence to paraphrase）數據，強化了其長文本的表徵能力，並在中文各NLI測試集評估達到SOTA，運行 examples/training_sup_text_matching_model_jsonl_data.py 代碼可訓練模型，模型文件已經上傳HF model hub，中文s2p（句子vs段落）語義匹配任務推薦使用。
shibing624/text2vec-base-multilingual 模型，是用CoSENT方法訓練，基於sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2用人工挑選後的多語言STS數據集 shibing624/nli-zh-all/text2vec-base-multilingual-dataset 訓練得到，並在中英文測試集評估相對於原模型效果有提升，運行 examples/training_sup_text_matching_model_jsonl_data.py 代碼可訓練模型，模型文件已經上傳HF model hub，多語言語義匹配任務推薦使用。
shibing624/text2vec-bge-large-chinese 模型，是用CoSENT方法訓練，基於BAAI/bge-large-zh-noinstruct用人工挑選後的中文STS數據集 shibing624/nli-zh-all/text2vec-base-chinese-paraphrase-dataset 訓練得到，並在中文測試集評估相對於原模型效果有提升，在短文本區分度上提升明顯，運行 examples/training_sup_text_matching_model_jsonl_data.py 代碼可訓練模型，模型文件已經上傳HF model hub，中文s2s（句子vs句子）語義匹配任務推薦使用。
w2v-light-tencent-chinese 是騰訊詞向量的Word2Vec模型，CPU加載使用，適用於中文字面匹配任務和缺少數據的冷啟動情況。
各預訓練模型均可以通過transformers調用，如MacBERT模型：--model_name hfl/chinese-macbert-base 或者roberta模型：--model_name uer/roberta-medium-wwm-chinese-cluecorpussmall。
為測評模型的魯棒性，加入了未訓練過的SOHU測試集，用於測試模型的泛化能力；為達到開箱即用的實用效果，使用了蒐集到的各中文匹配數據集，數據集也上傳到HF datasets鏈接見下方。
中文匹配任務實驗表明，pooling最優是EncoderType.FIRST_LAST_AVG和EncoderType.MEAN，兩者預測效果差異很小。
中文匹配評測結果復現，可以下載中文匹配數據集到examples/data，運行 tests/model_spearman.py 代碼復現評測結果。
QPS的GPU測試環境是Tesla V100，顯存32GB。

模型訓練實驗報告：實驗報告

模型架構

CoSENT(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: ErnieModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_mean_tokens': True})
)

預期用途

本模型旨在作為句子和短段落編碼器使用。給定輸入文本，它會輸出一個捕獲語義信息的向量。該句子向量可用於信息檢索、聚類或句子相似度任務。默認情況下，輸入文本長度超過256個詞塊時會被截斷。

訓練過程

預訓練

使用預訓練模型 https://huggingface.co/BAAI/bge-large-zh-noinstruct。有關預訓練過程的更多詳細信息，請參考該模型的說明文檔。

微調

使用對比目標對模型進行微調。具體來說，計算批次中每個可能句子對的餘弦相似度，然後通過與真實對和虛假對進行比較來應用排序損失。

🔧 技術細節

模型訓練

預訓練：採用了預訓練模型 https://huggingface.co/BAAI/bge-large-zh-noinstruct 作為基礎。
微調：運用對比目標進行微調，計算批次內句子對的餘弦相似度，並通過與真實和虛假對比較應用排序損失。

評估指標

使用spearman係數作為評測指標，用於評估模型在中文匹配任務中的性能。

📄 許可證

本模型使用的許可證為Apache - 2.0。

引用與作者

本模型由 text2vec 訓練。如果你覺得該模型有幫助，請參考以下引用：

@software{text2vec,
  author = {Ming Xu},
  title = {text2vec: A Tool for Text to Vector},
  year = {2023},
  url = {https://github.com/shibing624/text2vec},
}