🚀 临床心理学抽象结果预测模型
本项目基于SciBERT构建文本分类模型,旨在对临床心理学和心理治疗领域的科学摘要中的正负结果进行预测,为相关研究提供了一种有效的分析工具。
🚀 快速开始
在Huggingface上使用模型
可在Huggingface右侧窗口利用“Hosted inference API”使用该模型。点击“Compute”即可预测示例摘要或你自己输入的摘要的类别标签。类别标签“positive”对应“仅阳性结果”,“negative”对应“混合或阴性结果”。
对大量数据使用模型
from transformers import AutoTokenizer, Trainer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained('allenai/scibert_scivocab_uncased')
def preprocess_function(examples):
return tokenizer(examples["text"],
truncation=True,
max_length=512,
padding='max_length'
)
tokenized_data = dataset.map(preprocess_function, batched=True)
NegativeResultDetector = AutoModelForSequenceClassification.from_pretrained("ClinicalMetaScience/NegativeResultDetector")
trainer = Trainer(
model=NegativeResultDetector,
tokenizer=tokenizer,
)
predict_test=trainer.predict(tokenized_data["inference"])
更多关于分析你自己的数据或示例数据的信息,可在我们GitHub仓库中的脚本中找到。
✨ 主要特性
- 数据标注:对1900多个临床心理学摘要进行标注,分为“仅阳性结果”和“混合或阴性结果”两类。
- 多模型对比:对比了SciBERT、随机森林等多种模型在不同数据集上的性能。
- 可视化展示:通过表格和图表直观展示模型在不同数据集上的性能。
📦 安装指南
文档未提供具体安装命令,暂不展示安装指南相关内容。
💻 使用示例
基础用法
在Huggingface上使用模型时,利用右侧窗口的“Hosted inference API”,点击“Compute”预测摘要类别标签。
高级用法
对于大量数据,可按照以下步骤使用模型:
from transformers import AutoTokenizer, Trainer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained('allenai/scibert_scivocab_uncased')
def preprocess_function(examples):
return tokenizer(examples["text"],
truncation=True,
max_length=512,
padding='max_length'
)
tokenized_data = dataset.map(preprocess_function, batched=True)
NegativeResultDetector = AutoModelForSequenceClassification.from_pretrained("ClinicalMetaScience/NegativeResultDetector")
trainer = Trainer(
model=NegativeResultDetector,
tokenizer=tokenizer,
)
predict_test=trainer.predict(tokenized_data["inference"])
📚 详细文档
模型
本模型为SciBERT文本分类模型,用于预测临床心理学和心理治疗科学摘要中的正负结果。相关论文《Classifying Positive Results in Clinical Psychology Using Natural Language Processing》由Louis Schiekiera、Jonathan Diederichs和Helen Niemeyer发表在特刊Natural Language Processing in Psychology的ZfP上。
数据
对1900多个临床心理学摘要进行标注,分为“仅阳性结果”和“混合或阴性结果”两类,并使用SciBERT训练模型。模型在一个领域内(临床心理学)和两个领域外数据集(心理治疗)上进行了验证。关于预印本《Classifying Positive Results in Clinical Psychology Using Natural Language Processing》的文档、代码和数据的更多信息,可在GitHub仓库中找到。
结果
表格1
不同模型在标注的MAIN
语料库测试数据上的评估指标得分,该语料库包含198篇由德国临床心理学系研究人员撰写并于2012年至2022年间发表的摘要。
模型 |
准确率 |
混合与阴性结果 - F1 |
混合与阴性结果 - 召回率 |
混合与阴性结果 - 精确率 |
仅阳性结果 - F1 |
仅阳性结果 - 召回率 |
仅阳性结果 - 精确率 |
SciBERT |
0.864 |
0.867 |
0.907 |
0.830 |
0.860 |
0.822 |
0.902 |
随机森林 |
0.803 |
0.810 |
0.856 |
0.769 |
0.796 |
0.752 |
0.844 |
提取的 p 值 |
0.515 |
0.495 |
0.485 |
0.505 |
0.534 |
0.545 |
0.524 |
提取的自然语言指标 |
0.530 |
0.497 |
0.474 |
0.523 |
0.559 |
0.584 |
0.536 |
单词数量 |
0.475 |
0.441 |
0.423 |
0.461 |
0.505 |
0.525 |
0.486 |
图1
比较模型在领域内和领域外数据上的性能;彩色条形图代表不同的模型类型;样本:MAIN
测试:n = 198篇摘要;VAL1
:n = 150篇摘要;VAL2
:n = 150篇摘要。

使用模型
在Huggingface上使用
在Huggingface右侧窗口利用“Hosted inference API”,点击“Compute”预测摘要类别标签。“positive”对应“仅阳性结果”,“negative”对应“混合或阴性结果”。
对大量数据使用
按照代码示例中的步骤加载分词器、预处理数据、加载模型、初始化训练器并进行预测。
免责声明
本工具基于SciBERT模型开发,用于分析和预测科学摘要中正负结果的普遍性。虽然发表偏倚可能是科学文献中某些结果模式的合理解释,但本工具的分析并不能确凿地证明发表偏倚或其他潜在因素的存在。本工具仅评估数据,不探究观察到的趋势的潜在原因。该工具已在临床心理学和心理治疗领域的主要研究中进行了验证,虽然应用于其他领域或其他类型的研究(如元分析)的摘要时可能会有一定的见解,但其在这些情况下的适用性和准确性尚未经过充分测试。本工具的开发者不对工具结果的任何误解或滥用负责,并鼓励用户全面了解统计分析和预测模型的局限性。
资金与项目
本研究是柏林自由大学PANNE项目(德语缩写,意为“学科比较中结果未发表和未被接受的发表偏倚分析”)的一部分,由柏林大学联盟资助。作者均为柏林大学联盟成员。
🔧 技术细节
文档未提供具体技术实现细节,暂不展示技术细节相关内容。
📄 许可证
本项目采用MIT许可证。