🚀 🦔 HEDGEhog 🦔:基于BERT的多类别不确定性线索识别
这是一个微调后的多类别分类模型,能够在标记级别检测四种不同类型的不确定性线索(即模糊限制语),为文本分析提供了精准的不确定性识别能力。
🚀 快速开始
本模型可用于检测文本中的不确定性线索。不过需要注意,它是使用 Simple Transformers 库进行微调的,无法直接与 Transformers 的 pipeline
和类一起使用,否则会产生错误输出。
✨ 主要特性
- 能够在标记级别检测四种不同类型的不确定性线索。
- 基于 BERT 模型进行微调,具有较高的准确性。
📦 安装指南
使用此模型需要安装 Simple Transformers 库。
💻 使用示例
基础用法
from simpletransformers.ner import NERModel
model = NERModel(
'bert',
'jeniakim/hedgehog',
use_cuda=False,
labels=["C", "D", "E", "I", "N"],
)
example = "As much as I definitely enjoy solitude, I wouldn't mind perhaps spending little time with you (Björk)"
predictions, raw_outputs = model.predict([example])
预测结果如下:
[[{'As': 'C'},
{'much': 'C'},
{'as': 'C'},
{'I': 'C'},
{'definitely': 'C'},
{'enjoy': 'C'},
{'solitude,': 'C'},
{'I': 'C'},
{"wouldn't": 'C'},
{'mind': 'C'},
{'perhaps': 'E'},
{'spending': 'C'},
{'little': 'C'},
{'time': 'C'},
{'with': 'C'},
{'you': 'C'},
{'(Björk)': 'C'}]]
这表明,标记 'perhaps' 被识别为一个认知不确定性线索,而其他标记不是不确定性线索。
📚 详细文档
不确定性类型
标签 |
类型 |
描述 |
示例 |
E |
认知(Epistemic) |
命题有可能成立,但目前无法确定其真值。 |
She may be already asleep.(她可能已经睡着了。) |
I |
调查(Investigation) |
命题正在被确定其真值的过程中。 |
She examined the role of NF - kappaB in protein activation.(她研究了NF - κB在蛋白质激活中的作用。) |
D |
信念(Doxatic) |
命题表达了信念和假设,其他人可能知道其真假。 |
She believes that the Earth is flat.(她相信地球是平的。) |
N |
条件(Condition) |
命题的真假取决于另一个命题的真值。 |
If she gets the job, she will move to Utrecht.(如果她得到那份工作,她将搬到乌得勒支。) |
C |
确定(certain) |
不适用 |
不适用 |
预期用途和限制
- 该模型使用 Simple Transformers 库进行微调。此库基于 Transformers,但该模型不能直接与 Transformers 的
pipeline
和类一起使用,否则会生成错误输出。因此,本页面的 API 已禁用。
训练数据
HEDGEhog 模型在 [Szeged Uncertainty Corpus](https://rgai.inf.u - szeged.hu/node/160)(Szarvas 等人,20121)上进行训练和评估。该数据集的原始句子级 XML 版本可在[此处](https://rgai.inf.u - szeged.hu/node/160)获取。
用于训练的标记级版本可以从[这里](https://1drv.ms/u/s!AvPkt_QxBozXk7BiazucDqZkVxLo6g?e = IisuM6)以 pickle 格式的 pandas DataFrame 形式下载。你可以下载拆分后的数据集(train.pkl
137MB,test.pkl
17MB,dev.pkl
17MB)或完整数据集(szeged_fixed.pkl
172MB)。DataFrame 中的每一行包含一个标记、其特征(这些对 HEDGEhog 模型无关紧要;它们用于训练基线 CRF 模型,详见此处)、其句子 ID 和其标签。
训练过程
使用了以下训练参数:
- 优化器:AdamW
- 学习率:4e - 5
- 训练轮数:1
- 训练批次大小:16
评估结果
类别 |
精确率 |
召回率 |
F1 分数 |
样本数 |
认知(Epistemic) |
0.90 |
0.85 |
0.88 |
624 |
信念(Doxatic) |
0.88 |
0.92 |
0.90 |
142 |
调查(Investigation) |
0.83 |
0.86 |
0.84 |
111 |
条件(Condition) |
0.85 |
0.87 |
0.86 |
86 |
确定(Certain) |
1.00 |
1.00 |
1.00 |
104,751 |
宏平均 |
0.89 |
0.90 |
0.89 |
105,714 |
🔧 技术细节
该模型基于 BERT 进行微调,使用 Simple Transformers 库实现多类别分类任务,在标记级别检测不确定性线索。训练过程中使用了特定的优化器和训练参数,以达到较好的性能。
📄 许可证
本项目采用 MIT 许可证。
参考文献
1 Szarvas, G., Vincze, V., Farkas, R., Móra, G., & Gurevych, I. (2012). Cross - genre and cross - domain detection of semantic uncertainty. Computational Linguistics, 38(2), 335 - 367.