mpnet-personality開源模型 - 免費部署，助力人格心理學文本向量映射任務

首頁

Mpnet Personality

由dwulff開發

基於sentence-transformers的模型，用於將人格相關文本映射到768維向量空間，適用於人格心理學任務。

文本嵌入

Safetensors

#人格心理學 #無方向編碼 #語義嵌入

下載量 336

發布時間 : 4/8/2024

模型概述

該模型通過對all-mpnet-base-v2進行微調生成，專門用於處理人格相關的條目或文本，能夠在不考慮方向（如否定）的情況下編碼人格相關文本的內容。

模型特點

人格文本編碼

專門針對人格相關文本進行優化，能夠有效編碼人格條目和量表的內容。

無方向性編碼

模型編碼人格文本內容時不受方向（如否定）的影響，專注於文本的語義內容。

高相關性預測

在標準人格量表上預測條目間相關性達到皮爾遜r ~ 0.6，量表間相關性達到r ~ 0.7。

模型能力

人格文本特徵提取

句子相似度計算

人格條目聚類

人格量表映射

使用案例

心理學研究

人格條目聚類

將大量人格條目聚類為有意義的組別，用於心理學研究。

能夠有效識別條目間的語義相似性

人格量表映射

將不同的人格量表映射到統一的人格構念空間。

預測量表間相關性達到皮爾遜r ~ 0.7

心理評估工具開發

人格評估工具開發

輔助開發新的人格評估工具，通過語義相似性分析優化條目選擇。

對訓練中常見條目預測相關性可達r ~ 0.9

🚀 dwulff/mpnet-personality

這是一個 sentence-transformers 模型，它可以將與人格相關的條目或文本映射到一個768維的密集向量空間中，可用於人格心理學的許多任務，例如對人格條目和量表進行聚類、將人格量表映射到人格結構等。

該模型是通過使用200k對人格條目之間的無符號經驗相關性對 all-mpnet-base-v2 進行微調而生成的。因此，該模型能夠獨立於方向（例如否定）對與人格相關的文本內容進行編碼。

詳情請參閱 Wulff & Mata (2025)（請參閱補充材料）。

🚀 快速開始

安裝

確保 sentence-transformers 已安裝：

# 最新版本
pip install -U sentence-transformers

# 最新開發版本
pip install git+https://github.com/UKPLab/sentence-transformers.git

使用示例

基礎用法

你可以按以下方式提取嵌入向量：

from sentence_transformers import SentenceTransformer

# 人格相關句子
sentences = ["Rarely think about how I feel.", "Make decisions quickly."]

# 加載模型
model = SentenceTransformer('dwulff/mpnet-personality')

# 提取嵌入向量
embeddings = model.encode(sentences)
print(embeddings)

✨ 主要特性

能夠將人格相關文本映射到768維密集向量空間，適用於人格心理學的多種任務。
編碼時獨立於文本方向（如否定）。

📚 詳細文檔

評估結果

該模型已在公開的人格數據上進行了評估。對於標準的人格量表，如大五人格（BIG5）或六維人格（HEXACO）量表，該模型預測人格條目之間的經驗相關性約為皮爾遜 r ~ .6，量表之間的經驗相關性約為皮爾遜 r ~ .7。

由於記憶效應，該模型在其訓練過的許多常見人格條目上的表現可能更高（r ~ .9）。對於更專業的人格評估和人格條目以外的文本，以及人格因素，由於相關性方差的減小，其性能會較差。

詳情請參閱 Wulff & Mata (2025)（請參閱補充材料）。

引用

如果你使用了該模型，請按以下格式引用：

@article{wulff2024taxonomic,
  author       = {Wulff, Dirk U. and Mata, Rui},
  title        = {Semantic embeddings reveal and address taxonomic incommensurability in psychological measurement},
  journal      = {Nature Human Behavior},
  doi          = {https://doi.org/10.1038/s41562-024-02089-y}
}

訓練

該模型的訓練參數如下：

數據加載器

torch.utils.data.dataloader.DataLoader，長度為3125，參數如下：

{'batch_size': 64, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

損失函數

sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss

fit() 方法的參數：

{
    "epochs": 3,
    "evaluation_steps": 0,
    "evaluator": "NoneType",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 625,
    "weight_decay": 0.01
}

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 384, 'do_lower_case': False}) with Transformer model: MPNetModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)