🚀 心理搜索(Psych - Search)
心理搜索(Psych - Search)致力于将前沿的自然语言处理技术应用于心理健康领域,为心理健康从业者提供有力支持,助力自杀预防等相关项目的开展。
🚀 快速开始
心理搜索(Psych - Search)仍在开发中,旨在将前沿的自然语言处理技术应用于心理健康从业者。这里详细介绍的模型是传统分类模型以及心理搜索应用程序的自然语言理解模型的基础。心理搜索应用程序的目标是结合传统文本分类模型,扩展医学主题词表(MESH)分类法的范围,纳入与美国青少年社区自杀预防项目设计相关的心理健康类别,同时自动提取和标准化风险因素、保护因素等实体。
我们对医学主题词表(MESH)分类法的首次扩展包括以下类别:
我们正在积极寻找合作伙伴参与这项工作,期待您的加入!请通过 nlp4good@gmail.com 与我们联系。
✨ 主要特性
模型描述
该模型是 allenai/scibert_scivocab_uncased 的扩展。以 SciBERT 为基础模型,仅使用心理学和精神病学领域的 PubMed 研究摘要文本进行持续预训练。在约 350 万篇论文上进行了 10 个训练周期的训练,并在类似于 BioASQ 任务 A 的任务上进行了评估。
预期用途和局限性
如何使用
from transformers import AutoTokenizer, AutoModel
mname = "nlp4good/psych-search"
tokenizer = AutoTokenizer.from_pretrained(mname)
model = AutoModel.from_pretrained(mname)
局限性和偏差
该模型在 心理学和精神病学 分类下的所有 PubMed 摘要上进行训练。截至 3 月 1 日,这大约对应 320 万篇包含摘要文本的论文。在这 320 万篇论文中,对相关的稀疏心理健康类别进行了反向翻译,以增加某些心理健康类别的代表性。
该数据集存在一些局限性,包括与 性少数群体和性别少数群体 相关的论文数量存在较大差异。训练数据在不同性别群体中的分布如下:
女性 |
男性 |
性少数群体和性别少数群体 |
1,896,301 |
1,945,279 |
4,529 |
在医学主题词表(MESH)分类法定义的 种族群体 中也存在类似的差异:
非裔美国人 |
阿拉伯人 |
亚裔美国人 |
西班牙裔美国人 |
中美洲印第安人 |
北美洲印第安人 |
南美洲印第安人 |
原住民 |
墨西哥裔美国人 |
31,027 |
2,437 |
5,612 |
18,893 |
124 |
5,657 |
633 |
174 |
3,234 |
这些差异可能会对信息检索系统、下游机器学习模型以及其他利用这些预训练模型的自然语言处理应用产生重大影响。
训练数据
该模型在 心理学和精神病学 分类下的所有 PubMed 摘要上进行训练。截至 3 月 1 日,这大约对应 320 万篇包含摘要文本的论文。在这 320 万篇论文中,将相关的稀疏类别从英语反向翻译为法语,再从法语反向翻译回英语,以增加稀疏心理健康类别的代表性。这包括对以下类别的论文进行反向翻译:
总体而言,这一过程为我们的训练数据增加了 557,980 篇论文。
训练过程
在心理学和精神病学领域的 PubMed 论文上进行了 10 个训练周期的持续预训练。除了梯度累积步数设置为 4 之外,使用默认参数,每个设备的训练批次大小为 32。该模型的开发使用了 2 块 Nvidia 3090 显卡。
评估结果
为了评估心理搜索在心理健康领域的有效性,通过对心理搜索进行微调,构建了一个类似于 BioASQ 任务 A 的评估任务。在这里,我们使用与心理学和精神病学领域每篇论文相关的医学主题词表(MESH)分类法进行大规模生物医学索引。评估指标是心理学和精神病学领域内所有二级描述符的微 F1 分数。这对应于评估期间使用的 38 个不同的医学主题词表(MESH)类别。
模型 |
微 F1 分数 |
bert - base - uncased |
0.7348 |
SciBERT Scivocab Uncased |
0.7394 |
心理搜索(Psych - Search) |
0.7415 |
🔜 下一步计划
如果您有兴趣在这项工作的基础上继续开发,或者有其他关于如何借鉴他人工作的想法,请告知我们!您可以通过 nlp4good@gmail.com 与我们联系。我们的目标是将最先进的自然语言处理能力应用于研究不足的领域,心理健康是我们的首要任务。
📄 许可证
本项目采用 Apache - 2.0 许可证。