🚀 ROTA
快速犯罪文本自動編碼工具
犯罪司法研究常常需要將自由文本形式的犯罪描述轉換為整體的指控類別,以輔助分析。例如,自由文本描述的“逃避警車追捕”會被編碼為“妨礙執法”這一指控類別。由於自由文本的犯罪描述不規範,且通常需要對大量文本進行分類,這對研究人員來說可能是一個手動且耗時的過程。ROTA 是一個用於將犯罪文本轉換為犯罪代碼的機器學習模型。
目前,ROTA 可以預測給定犯罪文本的指控類別。指控類別是 2009 年 NCRP 代碼手冊:附錄 F 中犯罪代碼的標題之一。
該模型基於 公開可用數據 進行訓練,這些數據來自一個包含全美 50 個州犯罪信息的對照表,並結合了另外三個手動標註的犯罪文本數據集。
指控類別示例

ROTA 應用程序託管在 Hugging Face 空間:https://huggingface.co/spaces/rti-international/rota-app
🚀 快速開始
使用 ROTA 可以快速將犯罪文本轉換為犯罪代碼,輔助犯罪司法研究中的數據分析。
✨ 主要特性
- 自動編碼:將自由文本形式的犯罪描述自動轉換為指控類別。
- 數據驅動:基於公開數據和手動標註數據集進行訓練,具有較高的準確性。
- 可配置性:可以根據置信度分數過濾預測結果,提高預測的可靠性。
📚 詳細文檔
數據預處理
輸入文本通過一系列預處理步驟進行標準化。首先,文本會經過 500 多個不區分大小寫的正則表達式處理,這些表達式用於識別常見的拼寫錯誤和縮寫,並將文本擴展為更完整、正確的英文文本。然後,會從文本中去除一些特定於數據的前綴和後綴,例如某些州會在文本中包含法規編號。最後,去除輸入文本中的標點符號(美元符號除外),去除單詞之間的多個空格,並將文本轉換為小寫。
交叉驗證性能
該模型使用 3 折交叉驗證進行評估。除非另有說明,以下給出的數字是 3 折的平均值。
本倉庫中的模型是在所有可用數據上進行訓練的。因此,通常可以預期生產環境中的性能會(無法確切知曉)比以下給出的數字更好。
整體指標
指標 |
精確率 |
召回率 |
F1 分數 |
宏平均 |
0.811 |
0.786 |
0.794 |
注意:這些是每折值的平均值,因此宏平均是每折所有類別的宏平均的平均值。
每類別指標
類別 |
精確率 |
召回率 |
F1 分數 |
樣本數 |
嚴重攻擊 |
0.954 |
0.954 |
0.954 |
4085 |
武裝搶劫 |
0.961 |
0.955 |
0.958 |
1021 |
縱火 |
0.946 |
0.954 |
0.95 |
344 |
襲擊公職人員 |
0.914 |
0.905 |
0.909 |
588 |
汽車盜竊 |
0.962 |
0.962 |
0.962 |
1660 |
敲詐勒索/恐嚇 |
0.872 |
0.871 |
0.872 |
627 |
賄賂和利益衝突 |
0.784 |
0.796 |
0.79 |
216 |
入室盜竊 |
0.979 |
0.981 |
0.98 |
2214 |
虐待兒童 |
0.805 |
0.78 |
0.792 |
139 |
可卡因或快克毒品違規(未指定) |
0.827 |
0.815 |
0.821 |
47 |
商業化色情 |
0.818 |
0.788 |
0.802 |
666 |
藐視法庭 |
0.982 |
0.987 |
0.984 |
2952 |
教唆未成年人犯罪 |
0.544 |
0.333 |
0.392 |
50 |
管制物質違規(未指定) |
0.864 |
0.791 |
0.826 |
280 |
偽造(僅限聯邦) |
0 |
0 |
0 |
2 |
破壞財產 |
0.97 |
0.968 |
0.969 |
2560 |
酒後駕車(毒品) |
0.567 |
0.603 |
0.581 |
34 |
酒後駕車 |
0.951 |
0.946 |
0.949 |
2195 |
醉酒駕車 |
0.986 |
0.981 |
0.984 |
2391 |
毒品犯罪(違規/毒品未指定) |
0.903 |
0.911 |
0.907 |
3100 |
醉酒/流浪/擾亂治安 |
0.856 |
0.861 |
0.858 |
380 |
貪汙 |
0.865 |
0.759 |
0.809 |
100 |
貪汙(僅限聯邦) |
0 |
0 |
0 |
1 |
越獄 |
0.988 |
0.991 |
0.989 |
4035 |
家庭相關犯罪 |
0.739 |
0.773 |
0.755 |
442 |
重罪(未指定) |
0.692 |
0.735 |
0.712 |
122 |
逃避起訴 |
0.46 |
0.407 |
0.425 |
38 |
強迫雞姦 |
0.82 |
0.8 |
0.809 |
76 |
偽造(僅限聯邦) |
0 |
0 |
0 |
2 |
偽造/欺詐 |
0.911 |
0.928 |
0.919 |
4687 |
欺詐(僅限聯邦) |
0 |
0 |
0 |
2 |
重大盜竊(超過 200 美元) |
0.957 |
0.973 |
0.965 |
2412 |
慣犯 |
0.742 |
0.627 |
0.679 |
53 |
海洛因違規(未指定) |
0.879 |
0.811 |
0.843 |
24 |
肇事逃逸 |
0.922 |
0.94 |
0.931 |
303 |
肇事逃逸(財產損失) |
0.929 |
0.918 |
0.923 |
362 |
移民違規 |
0.84 |
0.609 |
0.697 |
19 |
侵犯隱私 |
0.927 |
0.923 |
0.925 |
1235 |
青少年犯罪 |
0.928 |
0.866 |
0.895 |
144 |
綁架 |
0.937 |
0.93 |
0.933 |
553 |
盜竊(價值未知) |
0.955 |
0.945 |
0.95 |
3175 |
與兒童的猥褻行為 |
0.775 |
0.85 |
0.811 |
596 |
酒類法律違規 |
0.741 |
0.768 |
0.755 |
214 |
非車輛過失殺人 |
0.626 |
0.802 |
0.701 |
139 |
車輛過失殺人 |
0.79 |
0.853 |
0.819 |
117 |
大麻/哈希什違規(未指定) |
0.741 |
0.662 |
0.699 |
62 |
輕罪(未指定) |
0.63 |
0.243 |
0.347 |
57 |
道德/體面犯罪 |
0.774 |
0.764 |
0.769 |
412 |
謀殺 |
0.965 |
0.915 |
0.939 |
621 |
妨礙執法 |
0.939 |
0.947 |
0.943 |
4220 |
針對法院、立法機構和委員會的犯罪 |
0.881 |
0.895 |
0.888 |
1965 |
假釋違規 |
0.97 |
0.953 |
0.962 |
946 |
小額盜竊(低於 200 美元) |
0.965 |
0.761 |
0.85 |
139 |
持有/使用 - 可卡因或快克 |
0.893 |
0.928 |
0.908 |
68 |
持有/使用 - 毒品未指定 |
0.624 |
0.535 |
0.572 |
189 |
持有/使用 - 海洛因 |
0.884 |
0.852 |
0.866 |
25 |
持有/使用 - 大麻/哈希什 |
0.977 |
0.97 |
0.973 |
556 |
持有/使用 - 其他管制物質 |
0.975 |
0.965 |
0.97 |
3271 |
緩刑違規 |
0.963 |
0.953 |
0.958 |
1158 |
財產犯罪 - 其他 |
0.901 |
0.87 |
0.885 |
446 |
公共秩序犯罪 - 其他 |
0.7 |
0.721 |
0.71 |
1871 |
敲詐勒索(僅限聯邦) |
0 |
0 |
0 |
2 |
強姦 - 強迫 |
0.842 |
0.873 |
0.857 |
641 |
法定強姦 - 無強迫 |
0.707 |
0.55 |
0.611 |
140 |
監管犯罪(僅限聯邦) |
0.847 |
0.567 |
0.674 |
70 |
騷亂 |
0.784 |
0.605 |
0.68 |
119 |
性侵犯 - 其他 |
0.836 |
0.836 |
0.836 |
971 |
簡單攻擊 |
0.976 |
0.967 |
0.972 |
4577 |
收贓 |
0.959 |
0.957 |
0.958 |
1193 |
贓物交易 |
0.902 |
0.888 |
0.895 |
491 |
稅法(僅限聯邦) |
0.373 |
0.233 |
0.286 |
30 |
輕微交通違規 |
0.974 |
0.977 |
0.976 |
8699 |
毒品交易 - 可卡因或快克 |
0.896 |
0.951 |
0.922 |
185 |
毒品交易 - 毒品未指定 |
0.709 |
0.795 |
0.749 |
516 |
毒品交易 - 海洛因 |
0.871 |
0.92 |
0.894 |
54 |
毒品交易 - 其他管制物質 |
0.963 |
0.954 |
0.959 |
2832 |
大麻/哈希什交易 |
0.921 |
0.943 |
0.932 |
255 |
非法侵入 |
0.974 |
0.98 |
0.977 |
1916 |
unarmed搶劫 |
0.941 |
0.939 |
0.94 |
377 |
未經授權使用車輛 |
0.94 |
0.908 |
0.924 |
304 |
未指定殺人 |
0.61 |
0.554 |
0.577 |
60 |
暴力犯罪 - 其他 |
0.827 |
0.817 |
0.822 |
606 |
自願/非過失殺人 |
0.619 |
0.513 |
0.542 |
54 |
武器犯罪 |
0.943 |
0.949 |
0.946 |
2466 |
注意:樣本數
是每折預測的平均觀測數,因此每個類別的總觀測數大約是 樣本數
的 3 倍。
使用置信度分數
如果將分類概率解釋為置信度分數,我們可以使用它來過濾模型不太確定的預測結果。我們在 3 折交叉驗證中應用了這一過程。以下數字表示在給定置信度分數閾值 p
的情況下,保留的預測數據的比例。我們給出了整體準確率和 MCC 指標,就好像模型僅在這部分置信預測的子集上進行評估一樣。
序號 |
閾值 |
保留比例 |
MCC |
準確率 |
0 |
0.85 |
0.952 |
0.96 |
0.961 |
1 |
0.9 |
0.943 |
0.964 |
0.965 |
2 |
0.95 |
0.928 |
0.97 |
0.971 |
3 |
0.975 |
0.912 |
0.975 |
0.976 |
4 |
0.99 |
0.886 |
0.982 |
0.983 |
5 |
0.999 |
0.733 |
0.995 |
0.996 |
📄 許可證
本項目採用 Apache-2.0 許可證。