sbert-chinese-qmc-finance-v1開源模型 - 適配銀行場景的金融問題匹配工具

首頁

Sbert Chinese Qmc Finance V1

由DMetaSoul開發

基於bert-base-chinese優化的金融領域問題匹配模型，專為銀行問題匹配場景設計

文本嵌入

Transformers

#金融問題匹配 #中文語義相似度 #銀行場景優化

下載量 41

發布時間 : 3/25/2022

模型概述

該模型在大規模銀行問題匹配數據集上進行了訓練優化，適用於金融領域的問題匹配場景，如利息計算、還款問題等。

模型特點

金融領域優化

專門針對金融領域問題匹配場景進行優化訓練

高效語義匹配

能夠準確計算金融相關問題之間的語義相似度

輕量化版本可用

提供蒸餾後的輕量化版本供選擇

模型能力

句子相似度計算

語義搜索

金融問題匹配

使用案例

金融服務

利息計算問題匹配

匹配不同表述的利息計算問題

能準確匹配'8千日利息400元?'與'10000元日利息多少錢'等類似問題

還款問題匹配

識別不同還款問題的相似性

能區分'提前還款是按全額計息'與'還款扣款不成功怎麼還款'等不同問題

借款問題匹配

匹配借款失敗相關問題的不同表述

能識別'為什麼我借錢交易失敗'與'剛申請的借款為什麼會失敗'的相似性

🚀 DMetaSoul/sbert-chinese-qmc-finance-v1

此模型聚焦於金融領域的問題匹配場景，基於 bert-base-chinese 版本的 BERT 模型，在大規模銀行問題匹配數據集（BQCorpus）上進行訓練調優，能有效處理金融相關問題的匹配。例如：

8千日利息400元? VS 10000元日利息多少錢
提前還款是按全額計息 VS 還款扣款不成功怎麼還款？
為什麼我借錢交易失敗 VS 剛申請的借款為什麼會失敗

注：此模型的輕量化版本，也已經開源啦！

🚀 快速開始

模型信息

屬性	詳情
模型類型	基於 BERT 的句子相似度模型
訓練數據	大規模銀行問題匹配數據集（BQCorpus）

安裝指南

使用 sentence-transformers 框架

通過 sentence-transformers 框架來使用該模型，首先進行安裝：

pip install -U sentence-transformers

使用示例

使用 sentence-transformers 框架

# 通過 sentence-transformers 框架載入模型並進行文本表徵向量的提取
from sentence_transformers import SentenceTransformer
sentences = ["到期不能按時還款怎麼辦", "剩餘欠款還有多少？"]

model = SentenceTransformer('DMetaSoul/sbert-chinese-qmc-finance-v1')
embeddings = model.encode(sentences)
print(embeddings)

使用 HuggingFace Transformers

# 如果不想使用 sentence-transformers，可通過 HuggingFace Transformers 載入模型並進行文本向量抽取
from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ["到期不能按時還款怎麼辦", "剩餘欠款還有多少？"]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('DMetaSoul/sbert-chinese-qmc-finance-v1')
model = AutoModel.from_pretrained('DMetaSoul/sbert-chinese-qmc-finance-v1')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)