ROTA開源機器學習模型 - 免費將罪行描述轉代碼，助力刑事司法研究

首頁

Rota

由rti-international開發

ROTA是一個機器學習模型，用於將自由文本的罪行描述轉換為標準化的罪行代碼類別，輔助刑事司法研究。

文本分類英語開源協議:Apache-2.0 #罪行文本編碼 #法律文本分類 #刑事司法分析

下載量 19

發布時間 : 3/2/2022

模型概述

該模型通過自然語言處理技術，將非結構化的罪行文本自動分類到NCRP代碼手冊中的指控類別，解決手動編碼耗時問題。

模型特點

高效文本預處理

採用500+正則表達式處理拼寫錯誤和縮寫，移除法規前綴等噪聲數據，實現文本標準化

多類別分類

支持85+指控類別的分類，涵蓋從交通違規到暴力犯罪等廣泛罪行類型

高準確率

在交叉驗證中達到0.934的整體準確率和0.931的MCC分數

置信度評分

提供預測置信度分數，可通過閾值過濾低置信度預測以提高準確率

模型能力

罪行文本分類

法律文本標準化

刑事司法數據分析

使用案例

刑事司法研究

罪行數據標準化

將各州非標準化的罪行描述統一編碼為NCRP標準類別

實現跨司法管轄區罪行數據的可比性分析

批量罪行分類

自動處理大規模罪行記錄，替代人工分類

測試顯示可節省90%+人工編碼時間

法律數據分析

犯罪模式分析

通過標準化分類識別特定地區或時期的犯罪趨勢

🚀 ROTA

快速犯罪文本自動編碼工具

犯罪司法研究常常需要將自由文本形式的犯罪描述轉換為整體的指控類別，以輔助分析。例如，自由文本描述的“逃避警車追捕”會被編碼為“妨礙執法”這一指控類別。由於自由文本的犯罪描述不規範，且通常需要對大量文本進行分類，這對研究人員來說可能是一個手動且耗時的過程。ROTA 是一個用於將犯罪文本轉換為犯罪代碼的機器學習模型。

目前，ROTA 可以預測給定犯罪文本的指控類別。指控類別是 2009 年 NCRP 代碼手冊：附錄 F 中犯罪代碼的標題之一。

該模型基於公開可用數據進行訓練，這些數據來自一個包含全美 50 個州犯罪信息的對照表，並結合了另外三個手動標註的犯罪文本數據集。

指控類別示例

ROTA 應用程序託管在 Hugging Face 空間：https://huggingface.co/spaces/rti-international/rota-app

🚀 快速開始

使用 ROTA 可以快速將犯罪文本轉換為犯罪代碼，輔助犯罪司法研究中的數據分析。

✨ 主要特性

自動編碼：將自由文本形式的犯罪描述自動轉換為指控類別。
數據驅動：基於公開數據和手動標註數據集進行訓練，具有較高的準確性。
可配置性：可以根據置信度分數過濾預測結果，提高預測的可靠性。

📚 詳細文檔

數據預處理

輸入文本通過一系列預處理步驟進行標準化。首先，文本會經過 500 多個不區分大小寫的正則表達式處理，這些表達式用於識別常見的拼寫錯誤和縮寫，並將文本擴展為更完整、正確的英文文本。然後，會從文本中去除一些特定於數據的前綴和後綴，例如某些州會在文本中包含法規編號。最後，去除輸入文本中的標點符號（美元符號除外），去除單詞之間的多個空格，並將文本轉換為小寫。

交叉驗證性能

該模型使用 3 折交叉驗證進行評估。除非另有說明，以下給出的數字是 3 折的平均值。

本倉庫中的模型是在所有可用數據上進行訓練的。因此，通常可以預期生產環境中的性能會（無法確切知曉）比以下給出的數字更好。

整體指標

指標	值
準確率	0.934
MCC	0.931

指標	精確率	召回率	F1 分數
宏平均	0.811	0.786	0.794

注意：這些是每折值的平均值，因此宏平均是每折所有類別的宏平均的平均值。

每類別指標

類別	精確率	召回率	F1 分數	樣本數
嚴重攻擊	0.954	0.954	0.954	4085
武裝搶劫	0.961	0.955	0.958	1021
縱火	0.946	0.954	0.95	344
襲擊公職人員	0.914	0.905	0.909	588
汽車盜竊	0.962	0.962	0.962	1660
敲詐勒索/恐嚇	0.872	0.871	0.872	627
賄賂和利益衝突	0.784	0.796	0.79	216
入室盜竊	0.979	0.981	0.98	2214
虐待兒童	0.805	0.78	0.792	139
可卡因或快克毒品違規（未指定）	0.827	0.815	0.821	47
商業化色情	0.818	0.788	0.802	666
藐視法庭	0.982	0.987	0.984	2952
教唆未成年人犯罪	0.544	0.333	0.392	50
管制物質違規（未指定）	0.864	0.791	0.826	280
偽造（僅限聯邦）	0	0	0	2
破壞財產	0.97	0.968	0.969	2560
酒後駕車（毒品）	0.567	0.603	0.581	34
酒後駕車	0.951	0.946	0.949	2195
醉酒駕車	0.986	0.981	0.984	2391
毒品犯罪（違規/毒品未指定）	0.903	0.911	0.907	3100
醉酒/流浪/擾亂治安	0.856	0.861	0.858	380
貪汙	0.865	0.759	0.809	100
貪汙（僅限聯邦）	0	0	0	1
越獄	0.988	0.991	0.989	4035
家庭相關犯罪	0.739	0.773	0.755	442
重罪（未指定）	0.692	0.735	0.712	122
逃避起訴	0.46	0.407	0.425	38
強迫雞姦	0.82	0.8	0.809	76
偽造（僅限聯邦）	0	0	0	2
偽造/欺詐	0.911	0.928	0.919	4687
欺詐（僅限聯邦）	0	0	0	2
重大盜竊（超過 200 美元）	0.957	0.973	0.965	2412
慣犯	0.742	0.627	0.679	53
海洛因違規（未指定）	0.879	0.811	0.843	24
肇事逃逸	0.922	0.94	0.931	303
肇事逃逸（財產損失）	0.929	0.918	0.923	362
移民違規	0.84	0.609	0.697	19
侵犯隱私	0.927	0.923	0.925	1235
青少年犯罪	0.928	0.866	0.895	144
綁架	0.937	0.93	0.933	553
盜竊（價值未知）	0.955	0.945	0.95	3175
與兒童的猥褻行為	0.775	0.85	0.811	596
酒類法律違規	0.741	0.768	0.755	214
非車輛過失殺人	0.626	0.802	0.701	139
車輛過失殺人	0.79	0.853	0.819	117
大麻/哈希什違規（未指定）	0.741	0.662	0.699	62
輕罪（未指定）	0.63	0.243	0.347	57
道德/體面犯罪	0.774	0.764	0.769	412
謀殺	0.965	0.915	0.939	621
妨礙執法	0.939	0.947	0.943	4220
針對法院、立法機構和委員會的犯罪	0.881	0.895	0.888	1965
假釋違規	0.97	0.953	0.962	946
小額盜竊（低於 200 美元）	0.965	0.761	0.85	139
持有/使用 - 可卡因或快克	0.893	0.928	0.908	68
持有/使用 - 毒品未指定	0.624	0.535	0.572	189
持有/使用 - 海洛因	0.884	0.852	0.866	25
持有/使用 - 大麻/哈希什	0.977	0.97	0.973	556
持有/使用 - 其他管制物質	0.975	0.965	0.97	3271
緩刑違規	0.963	0.953	0.958	1158
財產犯罪 - 其他	0.901	0.87	0.885	446
公共秩序犯罪 - 其他	0.7	0.721	0.71	1871
敲詐勒索（僅限聯邦）	0	0	0	2
強姦 - 強迫	0.842	0.873	0.857	641
法定強姦 - 無強迫	0.707	0.55	0.611	140
監管犯罪（僅限聯邦）	0.847	0.567	0.674	70
騷亂	0.784	0.605	0.68	119
性侵犯 - 其他	0.836	0.836	0.836	971
簡單攻擊	0.976	0.967	0.972	4577
收贓	0.959	0.957	0.958	1193
贓物交易	0.902	0.888	0.895	491
稅法（僅限聯邦）	0.373	0.233	0.286	30
輕微交通違規	0.974	0.977	0.976	8699
毒品交易 - 可卡因或快克	0.896	0.951	0.922	185
毒品交易 - 毒品未指定	0.709	0.795	0.749	516
毒品交易 - 海洛因	0.871	0.92	0.894	54
毒品交易 - 其他管制物質	0.963	0.954	0.959	2832
大麻/哈希什交易	0.921	0.943	0.932	255
非法侵入	0.974	0.98	0.977	1916
unarmed搶劫	0.941	0.939	0.94	377
未經授權使用車輛	0.94	0.908	0.924	304
未指定殺人	0.61	0.554	0.577	60
暴力犯罪 - 其他	0.827	0.817	0.822	606
自願/非過失殺人	0.619	0.513	0.542	54
武器犯罪	0.943	0.949	0.946	2466