🚀 心理搜索(Psych - Search)
心理搜索(Psych - Search)致力於將前沿的自然語言處理技術應用於心理健康領域,為心理健康從業者提供有力支持,助力自殺預防等相關項目的開展。
🚀 快速開始
心理搜索(Psych - Search)仍在開發中,旨在將前沿的自然語言處理技術應用於心理健康從業者。這裡詳細介紹的模型是傳統分類模型以及心理搜索應用程序的自然語言理解模型的基礎。心理搜索應用程序的目標是結合傳統文本分類模型,擴展醫學主題詞表(MESH)分類法的範圍,納入與美國青少年社區自殺預防項目設計相關的心理健康類別,同時自動提取和標準化風險因素、保護因素等實體。
我們對醫學主題詞表(MESH)分類法的首次擴展包括以下類別:
我們正在積極尋找合作伙伴參與這項工作,期待您的加入!請通過 nlp4good@gmail.com 與我們聯繫。
✨ 主要特性
模型描述
該模型是 allenai/scibert_scivocab_uncased 的擴展。以 SciBERT 為基礎模型,僅使用心理學和精神病學領域的 PubMed 研究摘要文本進行持續預訓練。在約 350 萬篇論文上進行了 10 個訓練週期的訓練,並在類似於 BioASQ 任務 A 的任務上進行了評估。
預期用途和侷限性
如何使用
from transformers import AutoTokenizer, AutoModel
mname = "nlp4good/psych-search"
tokenizer = AutoTokenizer.from_pretrained(mname)
model = AutoModel.from_pretrained(mname)
侷限性和偏差
該模型在 心理學和精神病學 分類下的所有 PubMed 摘要上進行訓練。截至 3 月 1 日,這大約對應 320 萬篇包含摘要文本的論文。在這 320 萬篇論文中,對相關的稀疏心理健康類別進行了反向翻譯,以增加某些心理健康類別的代表性。
該數據集存在一些侷限性,包括與 性少數群體和性別少數群體 相關的論文數量存在較大差異。訓練數據在不同性別群體中的分佈如下:
女性 |
男性 |
性少數群體和性別少數群體 |
1,896,301 |
1,945,279 |
4,529 |
在醫學主題詞表(MESH)分類法定義的 種族群體 中也存在類似的差異:
非裔美國人 |
阿拉伯人 |
亞裔美國人 |
西班牙裔美國人 |
中美洲印第安人 |
北美洲印第安人 |
南美洲印第安人 |
原住民 |
墨西哥裔美國人 |
31,027 |
2,437 |
5,612 |
18,893 |
124 |
5,657 |
633 |
174 |
3,234 |
這些差異可能會對信息檢索系統、下游機器學習模型以及其他利用這些預訓練模型的自然語言處理應用產生重大影響。
訓練數據
該模型在 心理學和精神病學 分類下的所有 PubMed 摘要上進行訓練。截至 3 月 1 日,這大約對應 320 萬篇包含摘要文本的論文。在這 320 萬篇論文中,將相關的稀疏類別從英語反向翻譯為法語,再從法語反向翻譯回英語,以增加稀疏心理健康類別的代表性。這包括對以下類別的論文進行反向翻譯:
總體而言,這一過程為我們的訓練數據增加了 557,980 篇論文。
訓練過程
在心理學和精神病學領域的 PubMed 論文上進行了 10 個訓練週期的持續預訓練。除了梯度累積步數設置為 4 之外,使用默認參數,每個設備的訓練批次大小為 32。該模型的開發使用了 2 塊 Nvidia 3090 顯卡。
評估結果
為了評估心理搜索在心理健康領域的有效性,通過對心理搜索進行微調,構建了一個類似於 BioASQ 任務 A 的評估任務。在這裡,我們使用與心理學和精神病學領域每篇論文相關的醫學主題詞表(MESH)分類法進行大規模生物醫學索引。評估指標是心理學和精神病學領域內所有二級描述符的微 F1 分數。這對應於評估期間使用的 38 個不同的醫學主題詞表(MESH)類別。
模型 |
微 F1 分數 |
bert - base - uncased |
0.7348 |
SciBERT Scivocab Uncased |
0.7394 |
心理搜索(Psych - Search) |
0.7415 |
🔜 下一步計劃
如果您有興趣在這項工作的基礎上繼續開發,或者有其他關於如何借鑑他人工作的想法,請告知我們!您可以通過 nlp4good@gmail.com 與我們聯繫。我們的目標是將最先進的自然語言處理能力應用於研究不足的領域,心理健康是我們的首要任務。
📄 許可證
本項目採用 Apache - 2.0 許可證。