🚀 PhysBERT 模型卡片
PhysBERT 是一款专为物理学领域打造的文本嵌入模型。它能够有效提升物理学文献的信息检索效率、引文分类准确性以及聚类效果。该模型基于 120 万篇物理学论文进行训练,在物理学特定任务上的表现远超通用模型。
🚀 快速开始
PhysBERT 是一个基于 BERT 的物理学文本嵌入模型,通过 SimCSE 进行微调,以优化其在物理学特定任务中的性能。该模型能够高效地检索、分类和分析物理学文献,在特定领域的自然语言处理任务中实现更高的相关性和准确性。未区分大小写的版本可以在这里找到。
✨ 主要特性
- 专业定制:专为物理学领域设计,在物理学特定任务上表现出色。
- 数据驱动:基于 120 万篇物理学论文训练,数据丰富可靠。
- 性能优化:通过 SimCSE 微调,提升在物理学任务中的相关性和准确性。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
import torch
tokenizer = AutoTokenizer.from_pretrained("thellert/physbert_cased")
model = AutoModel.from_pretrained("thellert/physbert_cased")
sample_text = "Electrons exhibit both particle and wave-like behavior."
inputs = tokenizer(sample_text, return_tensors="pt")
outputs = model(**inputs)
token_embeddings = outputs.last_hidden_state
token_embeddings = token_embeddings[:, 1:-1, :]
sentence_embedding = token_embeddings.mean(dim=1)
📚 详细文档
模型描述
训练数据
该模型在来自 arXiv 物理学出版物的 40GB 语料库上进行训练,该语料库包含 120 万篇文档,并经过科学准确性的提炼。
训练过程
该模型使用掩码语言模型(MLM)进行预训练,并使用 SimCSE 进行微调以生成句子嵌入。
🔧 技术细节
模型使用掩码语言模型(MLM)进行预训练,这有助于模型学习语言的统计规律和语义信息。之后,使用 SimCSE 进行微调,SimCSE 是一种无监督的句子嵌入学习方法,能够使模型生成的句子嵌入更具语义相关性,从而提升在物理学文献的信息检索、分类和聚类等任务中的性能。
📄 许可证
文档未提及许可证信息,故跳过此章节。
📖 引用说明
如果您觉得这项工作有用,请考虑引用以下论文:
@article{10.1063/5.0238090,
author = {Hellert, Thorsten and Montenegro, João and Pollastro, Andrea},
title = "{PhysBERT: A text embedding model for physics scientific literature}",
journal = {APL Machine Learning},
volume = {2},
number = {4},
pages = {046105},
year = {2024},
month = {10},
issn = {2770-9019},
doi = {10.1063/5.0238090},
url = {https://doi.org/10.1063/5.0238090},
eprint = {https://pubs.aip.org/aip/aml/article-pdf/doi/10.1063/5.0238090/20227307/046105_1_5.0238090.pdf},
}
📝 模型卡片作者
Thorsten Hellert、João Montenegro、Andrea Pollastro
📞 模型卡片联系信息
Thorsten Hellert,劳伦斯伯克利国家实验室,邮箱:thellert@lbl.gov