scibert-nli開源模型 - 免費使用，生成通用句子嵌入好幫手

Scibert Nli

由gsarti開發

基於SciBERT模型，通過SNLI和MultiNLI數據集微調，用於生成通用句子嵌入的模型

下載量 13.77k

發布時間 : 3/2/2022

模型概述

該模型基於SciBERT架構，通過自然語言推理數據集微調，能夠生成高質量的句子嵌入，適用於科學文本處理任務。

科學文本優化

使用SciBERT作為基礎模型，專門針對科學文本進行了優化

高效訓練

在NVIDIA Tesla P100 GPU上僅需約4小時即可完成訓練

平均池化策略

採用平均池化策略生成句子嵌入，提高表示能力

句子嵌入生成

文本相似度計算

科學文本處理

信息檢索

科學論文檢索

基於相似性的科學論文檢索系統

在Covid Papers Browser項目中得到應用

文本分析

句子相似度計算

計算兩個科學文本句子之間的語義相似度

在STS數據集上達到74.50的Spearman相關係數

屬性	詳情
基礎模型	HuggingFace 的 `AutoModel` 中的 `allenai/scibert-scivocab-cased`
訓練時間	在 Kaggle Notebooks 提供的 NVIDIA Tesla P100 GPU 上訓練約 4 小時
訓練參數
批次大小	64
訓練步數	20000
預熱步數	1450
小寫處理	True
最大序列長度	128