🚀 ROTA
快速犯罪文本自动编码工具
犯罪司法研究常常需要将自由文本形式的犯罪描述转换为整体的指控类别,以辅助分析。例如,自由文本描述的“逃避警车追捕”会被编码为“妨碍执法”这一指控类别。由于自由文本的犯罪描述不规范,且通常需要对大量文本进行分类,这对研究人员来说可能是一个手动且耗时的过程。ROTA 是一个用于将犯罪文本转换为犯罪代码的机器学习模型。
目前,ROTA 可以预测给定犯罪文本的指控类别。指控类别是 2009 年 NCRP 代码手册:附录 F 中犯罪代码的标题之一。
该模型基于 公开可用数据 进行训练,这些数据来自一个包含全美 50 个州犯罪信息的对照表,并结合了另外三个手动标注的犯罪文本数据集。
指控类别示例

ROTA 应用程序托管在 Hugging Face 空间:https://huggingface.co/spaces/rti-international/rota-app
🚀 快速开始
使用 ROTA 可以快速将犯罪文本转换为犯罪代码,辅助犯罪司法研究中的数据分析。
✨ 主要特性
- 自动编码:将自由文本形式的犯罪描述自动转换为指控类别。
- 数据驱动:基于公开数据和手动标注数据集进行训练,具有较高的准确性。
- 可配置性:可以根据置信度分数过滤预测结果,提高预测的可靠性。
📚 详细文档
数据预处理
输入文本通过一系列预处理步骤进行标准化。首先,文本会经过 500 多个不区分大小写的正则表达式处理,这些表达式用于识别常见的拼写错误和缩写,并将文本扩展为更完整、正确的英文文本。然后,会从文本中去除一些特定于数据的前缀和后缀,例如某些州会在文本中包含法规编号。最后,去除输入文本中的标点符号(美元符号除外),去除单词之间的多个空格,并将文本转换为小写。
交叉验证性能
该模型使用 3 折交叉验证进行评估。除非另有说明,以下给出的数字是 3 折的平均值。
本仓库中的模型是在所有可用数据上进行训练的。因此,通常可以预期生产环境中的性能会(无法确切知晓)比以下给出的数字更好。
整体指标
指标 |
精确率 |
召回率 |
F1 分数 |
宏平均 |
0.811 |
0.786 |
0.794 |
注意:这些是每折值的平均值,因此宏平均是每折所有类别的宏平均的平均值。
每类别指标
类别 |
精确率 |
召回率 |
F1 分数 |
样本数 |
严重攻击 |
0.954 |
0.954 |
0.954 |
4085 |
武装抢劫 |
0.961 |
0.955 |
0.958 |
1021 |
纵火 |
0.946 |
0.954 |
0.95 |
344 |
袭击公职人员 |
0.914 |
0.905 |
0.909 |
588 |
汽车盗窃 |
0.962 |
0.962 |
0.962 |
1660 |
敲诈勒索/恐吓 |
0.872 |
0.871 |
0.872 |
627 |
贿赂和利益冲突 |
0.784 |
0.796 |
0.79 |
216 |
入室盗窃 |
0.979 |
0.981 |
0.98 |
2214 |
虐待儿童 |
0.805 |
0.78 |
0.792 |
139 |
可卡因或快克毒品违规(未指定) |
0.827 |
0.815 |
0.821 |
47 |
商业化色情 |
0.818 |
0.788 |
0.802 |
666 |
藐视法庭 |
0.982 |
0.987 |
0.984 |
2952 |
教唆未成年人犯罪 |
0.544 |
0.333 |
0.392 |
50 |
管制物质违规(未指定) |
0.864 |
0.791 |
0.826 |
280 |
伪造(仅限联邦) |
0 |
0 |
0 |
2 |
破坏财产 |
0.97 |
0.968 |
0.969 |
2560 |
酒后驾车(毒品) |
0.567 |
0.603 |
0.581 |
34 |
酒后驾车 |
0.951 |
0.946 |
0.949 |
2195 |
醉酒驾车 |
0.986 |
0.981 |
0.984 |
2391 |
毒品犯罪(违规/毒品未指定) |
0.903 |
0.911 |
0.907 |
3100 |
醉酒/流浪/扰乱治安 |
0.856 |
0.861 |
0.858 |
380 |
贪污 |
0.865 |
0.759 |
0.809 |
100 |
贪污(仅限联邦) |
0 |
0 |
0 |
1 |
越狱 |
0.988 |
0.991 |
0.989 |
4035 |
家庭相关犯罪 |
0.739 |
0.773 |
0.755 |
442 |
重罪(未指定) |
0.692 |
0.735 |
0.712 |
122 |
逃避起诉 |
0.46 |
0.407 |
0.425 |
38 |
强迫鸡奸 |
0.82 |
0.8 |
0.809 |
76 |
伪造(仅限联邦) |
0 |
0 |
0 |
2 |
伪造/欺诈 |
0.911 |
0.928 |
0.919 |
4687 |
欺诈(仅限联邦) |
0 |
0 |
0 |
2 |
重大盗窃(超过 200 美元) |
0.957 |
0.973 |
0.965 |
2412 |
惯犯 |
0.742 |
0.627 |
0.679 |
53 |
海洛因违规(未指定) |
0.879 |
0.811 |
0.843 |
24 |
肇事逃逸 |
0.922 |
0.94 |
0.931 |
303 |
肇事逃逸(财产损失) |
0.929 |
0.918 |
0.923 |
362 |
移民违规 |
0.84 |
0.609 |
0.697 |
19 |
侵犯隐私 |
0.927 |
0.923 |
0.925 |
1235 |
青少年犯罪 |
0.928 |
0.866 |
0.895 |
144 |
绑架 |
0.937 |
0.93 |
0.933 |
553 |
盗窃(价值未知) |
0.955 |
0.945 |
0.95 |
3175 |
与儿童的猥亵行为 |
0.775 |
0.85 |
0.811 |
596 |
酒类法律违规 |
0.741 |
0.768 |
0.755 |
214 |
非车辆过失杀人 |
0.626 |
0.802 |
0.701 |
139 |
车辆过失杀人 |
0.79 |
0.853 |
0.819 |
117 |
大麻/哈希什违规(未指定) |
0.741 |
0.662 |
0.699 |
62 |
轻罪(未指定) |
0.63 |
0.243 |
0.347 |
57 |
道德/体面犯罪 |
0.774 |
0.764 |
0.769 |
412 |
谋杀 |
0.965 |
0.915 |
0.939 |
621 |
妨碍执法 |
0.939 |
0.947 |
0.943 |
4220 |
针对法院、立法机构和委员会的犯罪 |
0.881 |
0.895 |
0.888 |
1965 |
假释违规 |
0.97 |
0.953 |
0.962 |
946 |
小额盗窃(低于 200 美元) |
0.965 |
0.761 |
0.85 |
139 |
持有/使用 - 可卡因或快克 |
0.893 |
0.928 |
0.908 |
68 |
持有/使用 - 毒品未指定 |
0.624 |
0.535 |
0.572 |
189 |
持有/使用 - 海洛因 |
0.884 |
0.852 |
0.866 |
25 |
持有/使用 - 大麻/哈希什 |
0.977 |
0.97 |
0.973 |
556 |
持有/使用 - 其他管制物质 |
0.975 |
0.965 |
0.97 |
3271 |
缓刑违规 |
0.963 |
0.953 |
0.958 |
1158 |
财产犯罪 - 其他 |
0.901 |
0.87 |
0.885 |
446 |
公共秩序犯罪 - 其他 |
0.7 |
0.721 |
0.71 |
1871 |
敲诈勒索(仅限联邦) |
0 |
0 |
0 |
2 |
强奸 - 强迫 |
0.842 |
0.873 |
0.857 |
641 |
法定强奸 - 无强迫 |
0.707 |
0.55 |
0.611 |
140 |
监管犯罪(仅限联邦) |
0.847 |
0.567 |
0.674 |
70 |
骚乱 |
0.784 |
0.605 |
0.68 |
119 |
性侵犯 - 其他 |
0.836 |
0.836 |
0.836 |
971 |
简单攻击 |
0.976 |
0.967 |
0.972 |
4577 |
收赃 |
0.959 |
0.957 |
0.958 |
1193 |
赃物交易 |
0.902 |
0.888 |
0.895 |
491 |
税法(仅限联邦) |
0.373 |
0.233 |
0.286 |
30 |
轻微交通违规 |
0.974 |
0.977 |
0.976 |
8699 |
毒品交易 - 可卡因或快克 |
0.896 |
0.951 |
0.922 |
185 |
毒品交易 - 毒品未指定 |
0.709 |
0.795 |
0.749 |
516 |
毒品交易 - 海洛因 |
0.871 |
0.92 |
0.894 |
54 |
毒品交易 - 其他管制物质 |
0.963 |
0.954 |
0.959 |
2832 |
大麻/哈希什交易 |
0.921 |
0.943 |
0.932 |
255 |
非法侵入 |
0.974 |
0.98 |
0.977 |
1916 |
unarmed抢劫 |
0.941 |
0.939 |
0.94 |
377 |
未经授权使用车辆 |
0.94 |
0.908 |
0.924 |
304 |
未指定杀人 |
0.61 |
0.554 |
0.577 |
60 |
暴力犯罪 - 其他 |
0.827 |
0.817 |
0.822 |
606 |
自愿/非过失杀人 |
0.619 |
0.513 |
0.542 |
54 |
武器犯罪 |
0.943 |
0.949 |
0.946 |
2466 |
注意:样本数
是每折预测的平均观测数,因此每个类别的总观测数大约是 样本数
的 3 倍。
使用置信度分数
如果将分类概率解释为置信度分数,我们可以使用它来过滤模型不太确定的预测结果。我们在 3 折交叉验证中应用了这一过程。以下数字表示在给定置信度分数阈值 p
的情况下,保留的预测数据的比例。我们给出了整体准确率和 MCC 指标,就好像模型仅在这部分置信预测的子集上进行评估一样。
序号 |
阈值 |
保留比例 |
MCC |
准确率 |
0 |
0.85 |
0.952 |
0.96 |
0.961 |
1 |
0.9 |
0.943 |
0.964 |
0.965 |
2 |
0.95 |
0.928 |
0.97 |
0.971 |
3 |
0.975 |
0.912 |
0.975 |
0.976 |
4 |
0.99 |
0.886 |
0.982 |
0.983 |
5 |
0.999 |
0.733 |
0.995 |
0.996 |
📄 许可证
本项目采用 Apache-2.0 许可证。