PhysBERT_cased开源物理文本嵌入模型 - 基于百万论文训练，特定任务表现超通用模型

首页

Physbert Cased

由 thellert 开发

PhysBERT是专为物理学设计的文本嵌入模型，基于120万篇物理论文训练，在物理学特定任务上表现优于通用模型。

文本嵌入

Transformers

#物理论文嵌入 #科学文献检索 #SimCSE微调

下载量 2,496

发布时间 : 8/19/2024

模型简介

基于BERT架构的物理学文本嵌入模型，采用SimCSE方法微调，优化物理学文献的信息检索、引文分类和聚类效果。

模型特点

物理学领域优化

专门针对物理学文献训练，在物理学特定任务上表现优于通用模型。

大规模训练数据

基于120万篇经过科学准确性校验的arXiv物理学出版物训练。

SimCSE微调

采用SimCSE方法进行微调，优化句子嵌入生成效果。

模型能力

物理学文本嵌入

信息检索

引文分类

文本聚类

科学文献分析

使用案例

学术研究

物理学文献检索

高效检索相关物理学文献

比通用模型具有更高的相关性和准确性

引文分类

对物理学论文引文进行分类

领域特定任务表现更优

知识管理

物理学文献聚类

对大量物理学文献进行自动聚类

便于知识组织和发现

🚀 PhysBERT 模型卡片

PhysBERT 是一款专为物理学领域打造的文本嵌入模型。它能够有效提升物理学文献的信息检索效率、引文分类准确性以及聚类效果。该模型基于 120 万篇物理学论文进行训练，在物理学特定任务上的表现远超通用模型。

🚀 快速开始

PhysBERT 是一个基于 BERT 的物理学文本嵌入模型，通过 SimCSE 进行微调，以优化其在物理学特定任务中的性能。该模型能够高效地检索、分类和分析物理学文献，在特定领域的自然语言处理任务中实现更高的相关性和准确性。未区分大小写的版本可以在这里找到。

✨ 主要特性

专业定制：专为物理学领域设计，在物理学特定任务上表现出色。
数据驱动：基于 120 万篇物理学论文训练，数据丰富可靠。
性能优化：通过 SimCSE 微调，提升在物理学任务中的相关性和准确性。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel
import torch

# Load PhysBERT tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("thellert/physbert_cased")
model = AutoModel.from_pretrained("thellert/physbert_cased")

# Sample text to embed
sample_text = "Electrons exhibit both particle and wave-like behavior."

# Tokenize the input text and pass it through the model
inputs = tokenizer(sample_text, return_tensors="pt")
outputs = model(**inputs)

# Extract the token embeddings
token_embeddings = outputs.last_hidden_state
# Drop CLS and SEP tokens, then take the mean for the sentence embedding
token_embeddings = token_embeddings[:, 1:-1, :]
sentence_embedding = token_embeddings.mean(dim=1)

📚 详细文档

模型描述

开发者：Thorsten Hellert、João Montenegro、Andrea Pollastro
资助方：美国能源部、劳伦斯伯克利国家实验室
模型类型：文本嵌入模型（基于 BERT）
语言：英语
论文：PhysBERT: A Text Embedding Model for Physics Scientific Literature

训练数据

该模型在来自 arXiv 物理学出版物的 40GB 语料库上进行训练，该语料库包含 120 万篇文档，并经过科学准确性的提炼。

训练过程

该模型使用掩码语言模型（MLM）进行预训练，并使用 SimCSE 进行微调以生成句子嵌入。

🔧 技术细节

模型使用掩码语言模型（MLM）进行预训练，这有助于模型学习语言的统计规律和语义信息。之后，使用 SimCSE 进行微调，SimCSE 是一种无监督的句子嵌入学习方法，能够使模型生成的句子嵌入更具语义相关性，从而提升在物理学文献的信息检索、分类和聚类等任务中的性能。

📄 许可证

文档未提及许可证信息，故跳过此章节。

📖 引用说明

如果您觉得这项工作有用，请考虑引用以下论文：

@article{10.1063/5.0238090,
    author = {Hellert, Thorsten and Montenegro, João and Pollastro, Andrea},
    title = "{PhysBERT: A text embedding model for physics scientific literature}",
    journal = {APL Machine Learning},
    volume = {2},
    number = {4},
    pages = {046105},
    year = {2024},
    month = {10},
    issn = {2770-9019},
    doi = {10.1063/5.0238090},
    url = {https://doi.org/10.1063/5.0238090},
    eprint = {https://pubs.aip.org/aip/aml/article-pdf/doi/10.1063/5.0238090/20227307/046105_1_5.0238090.pdf},
}