covidbert-nli開源模型 - 基於CORD19數據生成通用句子嵌入表示

首頁

Covidbert Nli

由gsarti開發

基於冠狀病毒研究論文數據集CORD19訓練的BERT模型，通過自然語言推理任務微調生成通用句子嵌入表示

文本嵌入 #新冠科研語義理解 #NLI微調嵌入 #生物醫學文本處理

下載量 26

發布時間 : 3/2/2022

模型概述

本模型是在CORD19數據集上預訓練，並在SNLI和MultiNLI數據集上微調的BERT模型，專門用於生成與COVID-19相關的文本語義表示，適用於科研文獻檢索和語義相似度計算等任務。

模型特點

冠狀病毒領域適應

基於CORD19冠狀病毒研究論文數據集進行預訓練，對COVID-19相關文本具有更好的表示能力

自然語言推理微調

在SNLI和MultiNLI數據集上進行微調，優化了句子級語義表示能力

高效訓練配置

採用批大小64、23000訓練步數、1450預熱步數的優化配置，在P100 GPU上僅需6小時完成訓練

模型能力

文本語義表示

句子相似度計算

科研文獻檢索

自然語言推理

使用案例

科研文獻處理

新冠文獻語義檢索

基於語義相似度的COVID-19研究論文檢索系統

在新冠語義瀏覽器項目中得到應用

科學文獻分類

對冠狀病毒相關研究論文進行自動分類

🚀 CovidBERT-NLI

CovidBERT-NLI 是 DeepSet 在 AllenAI 的 CORD19 數據集（一個關於冠狀病毒的科學文章數據集）上訓練的模型。該模型能夠為科學研究提供語義理解和文本匹配能力，助力疫情相關研究的信息檢索和分析。

🚀 快速開始

CovidBERT 模型使用原始的 BERT 詞塊詞彙表，隨後在 SNLI 和 MultiNLI 數據集上進行微調。微調過程藉助了 sentence-transformers 庫，採用平均池化策略和softmax 損失函數來生成通用的句子嵌入 [1]。

✨ 主要特性

基於專業數據集訓練：使用 CORD19 數據集進行預訓練，該數據集包含大量關於冠狀病毒的科學文章，使模型在疫情相關領域具有更好的語義理解能力。
微調優化：在 SNLI 和 MultiNLI 數據集上進行微調，提升了模型在自然語言推理任務中的表現。
通用句子嵌入：通過平均池化策略和 softmax 損失函數生成通用的句子嵌入，可應用於多種自然語言處理任務。

📚 詳細文檔

基礎信息

基礎模型：來自 HuggingFace 的 AutoModel 的 deepset/covid_bert_base。
訓練時間：在 Kaggle Notebooks 提供的 NVIDIA Tesla P100 GPU 上訓練約 6 小時。

參數詳情

參數	值
批次大小	64
訓練步數	23000
預熱步數	1450
小寫處理	是
最大序列長度	128

性能評估

模型的性能在 STS 數據集的測試部分進行評估，使用斯皮爾曼等級相關性進行度量，並與通過相同流程獲得的類似模型的性能進行比較，以驗證其性能。

模型	得分
`covidbert-nli` (本模型)	67.52
`gsarti/biobert-nli`	73.40
`gsarti/scibert-nli`	74.50
`bert-base-nli-mean-tokens`[2]	77.12

使用示例

在 Covid-19 語義瀏覽器倉庫中提供了基於相似度的科學論文檢索的使用示例。

📄 參考文獻

[1] A. Conneau 等人，Supervised Learning of Universal Sentence Representations from Natural Language Inference Data [2] N. Reimers 和 I. Gurevych，Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫