🚀 臨床心理學抽象結果預測模型
本項目基於SciBERT構建文本分類模型,旨在對臨床心理學和心理治療領域的科學摘要中的正負結果進行預測,為相關研究提供了一種有效的分析工具。
🚀 快速開始
在Huggingface上使用模型
可在Huggingface右側窗口利用“Hosted inference API”使用該模型。點擊“Compute”即可預測示例摘要或你自己輸入的摘要的類別標籤。類別標籤“positive”對應“僅陽性結果”,“negative”對應“混合或陰性結果”。
對大量數據使用模型
from transformers import AutoTokenizer, Trainer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained('allenai/scibert_scivocab_uncased')
def preprocess_function(examples):
return tokenizer(examples["text"],
truncation=True,
max_length=512,
padding='max_length'
)
tokenized_data = dataset.map(preprocess_function, batched=True)
NegativeResultDetector = AutoModelForSequenceClassification.from_pretrained("ClinicalMetaScience/NegativeResultDetector")
trainer = Trainer(
model=NegativeResultDetector,
tokenizer=tokenizer,
)
predict_test=trainer.predict(tokenized_data["inference"])
更多關於分析你自己的數據或示例數據的信息,可在我們GitHub倉庫中的腳本中找到。
✨ 主要特性
- 數據標註:對1900多個臨床心理學摘要進行標註,分為“僅陽性結果”和“混合或陰性結果”兩類。
- 多模型對比:對比了SciBERT、隨機森林等多種模型在不同數據集上的性能。
- 可視化展示:通過表格和圖表直觀展示模型在不同數據集上的性能。
📦 安裝指南
文檔未提供具體安裝命令,暫不展示安裝指南相關內容。
💻 使用示例
基礎用法
在Huggingface上使用模型時,利用右側窗口的“Hosted inference API”,點擊“Compute”預測摘要類別標籤。
高級用法
對於大量數據,可按照以下步驟使用模型:
from transformers import AutoTokenizer, Trainer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained('allenai/scibert_scivocab_uncased')
def preprocess_function(examples):
return tokenizer(examples["text"],
truncation=True,
max_length=512,
padding='max_length'
)
tokenized_data = dataset.map(preprocess_function, batched=True)
NegativeResultDetector = AutoModelForSequenceClassification.from_pretrained("ClinicalMetaScience/NegativeResultDetector")
trainer = Trainer(
model=NegativeResultDetector,
tokenizer=tokenizer,
)
predict_test=trainer.predict(tokenized_data["inference"])
📚 詳細文檔
模型
本模型為SciBERT文本分類模型,用於預測臨床心理學和心理治療科學摘要中的正負結果。相關論文《Classifying Positive Results in Clinical Psychology Using Natural Language Processing》由Louis Schiekiera、Jonathan Diederichs和Helen Niemeyer發表在特刊Natural Language Processing in Psychology的ZfP上。
數據
對1900多個臨床心理學摘要進行標註,分為“僅陽性結果”和“混合或陰性結果”兩類,並使用SciBERT訓練模型。模型在一個領域內(臨床心理學)和兩個領域外數據集(心理治療)上進行了驗證。關於預印本《Classifying Positive Results in Clinical Psychology Using Natural Language Processing》的文檔、代碼和數據的更多信息,可在GitHub倉庫中找到。
結果
表格1
不同模型在標註的MAIN
語料庫測試數據上的評估指標得分,該語料庫包含198篇由德國臨床心理學系研究人員撰寫並於2012年至2022年間發表的摘要。
模型 |
準確率 |
混合與陰性結果 - F1 |
混合與陰性結果 - 召回率 |
混合與陰性結果 - 精確率 |
僅陽性結果 - F1 |
僅陽性結果 - 召回率 |
僅陽性結果 - 精確率 |
SciBERT |
0.864 |
0.867 |
0.907 |
0.830 |
0.860 |
0.822 |
0.902 |
隨機森林 |
0.803 |
0.810 |
0.856 |
0.769 |
0.796 |
0.752 |
0.844 |
提取的 p 值 |
0.515 |
0.495 |
0.485 |
0.505 |
0.534 |
0.545 |
0.524 |
提取的自然語言指標 |
0.530 |
0.497 |
0.474 |
0.523 |
0.559 |
0.584 |
0.536 |
單詞數量 |
0.475 |
0.441 |
0.423 |
0.461 |
0.505 |
0.525 |
0.486 |
圖1
比較模型在領域內和領域外數據上的性能;彩色條形圖代表不同的模型類型;樣本:MAIN
測試:n = 198篇摘要;VAL1
:n = 150篇摘要;VAL2
:n = 150篇摘要。

使用模型
在Huggingface上使用
在Huggingface右側窗口利用“Hosted inference API”,點擊“Compute”預測摘要類別標籤。“positive”對應“僅陽性結果”,“negative”對應“混合或陰性結果”。
對大量數據使用
按照代碼示例中的步驟加載分詞器、預處理數據、加載模型、初始化訓練器並進行預測。
免責聲明
本工具基於SciBERT模型開發,用於分析和預測科學摘要中正負結果的普遍性。雖然發表偏倚可能是科學文獻中某些結果模式的合理解釋,但本工具的分析並不能確鑿地證明發表偏倚或其他潛在因素的存在。本工具僅評估數據,不探究觀察到的趨勢的潛在原因。該工具已在臨床心理學和心理治療領域的主要研究中進行了驗證,雖然應用於其他領域或其他類型的研究(如元分析)的摘要時可能會有一定的見解,但其在這些情況下的適用性和準確性尚未經過充分測試。本工具的開發者不對工具結果的任何誤解或濫用負責,並鼓勵用戶全面瞭解統計分析和預測模型的侷限性。
資金與項目
本研究是柏林自由大學PANNE項目(德語縮寫,意為“學科比較中結果未發表和未被接受的發表偏倚分析”)的一部分,由柏林大學聯盟資助。作者均為柏林大學聯盟成員。
🔧 技術細節
文檔未提供具體技術實現細節,暫不展示技術細節相關內容。
📄 許可證
本項目採用MIT許可證。