🚀 ROTA
迅速な犯罪記述の自動コード化を実現する機械学習モデル
ROTAは、犯罪記述の自由記述を犯罪コードに変換するための機械学習モデルです。刑事司法研究において、自由記述の犯罪記述を全体的な罪名カテゴリに変換する作業は分析を支援するために必要ですが、この作業は標準化されていないため、研究者にとって手動で時間がかかる作業になります。ROTAはこの問題を解決し、自動的に犯罪記述をコード化することができます。

ROTAアプリケーションはHugging Face Spacesにホストされています: https://huggingface.co/spaces/rti-international/rota-app
🚀 クイックスタート
刑事司法研究では、自由記述の犯罪記述を全体的な罪名カテゴリに変換して分析を支援する必要があります。例えば、「警察車両から逃走する」という自由記述の犯罪は、「法令執行妨害」という罪名カテゴリにコード化されます。自由記述の犯罪記述は標準化されておらず、大量に分類する必要があるため、研究者にとって手動で時間がかかる作業になります。ROTAは、犯罪記述を犯罪コードに変換するための機械学習モデルです。
現在、ROTAは与えられた犯罪記述の罪名カテゴリを予測します。罪名カテゴリは、2009 NCRP Codebook: Appendix Fにある犯罪コードの見出しの1つです。
このモデルは、50州すべての犯罪を含むクロスウォークと、追加の3つの手動ラベル付けされた犯罪記述データセットを組み合わせた公開データで学習されています。
罪名カテゴリの例
データ前処理
入力テキストは一連の前処理手順を通じて標準化されます。まず、500以上の大文字小文字を区別しない正規表現のシーケンスを通して、一般的な誤字や略語を特定し、テキストをより完全で正しい英語のテキストに拡張します。次に、データ固有のいくつかの接頭辞や接尾辞をテキストから削除します。例えば、一部の州では法律条文がテキストの一部として含まれています。最後に、入力から句読点(ドル記号を除く)を削除し、単語間の複数の空白を削除し、テキストを小文字に変換します。
🔧 技術詳細
交差検証の性能
このモデルは3分割交差検証を使用して評価されました。特に明記しない限り、以下に示す数値は3分割の平均値です。
このリポジトリのモデルは利用可能なすべてのデータで学習されています。このため、通常、実稼働時のパフォーマンスは以下に示す数値よりも(不明ですが)良いと期待できます。
全体的なメトリクス
メトリクス |
値 |
正解率 |
0.934 |
MCC |
0.931 |
メトリクス |
適合率 |
再現率 |
F1値 |
マクロ平均 |
0.811 |
0.786 |
0.794 |
注: これらは各分割の値の平均です。したがって、マクロ平均は各分割のすべてのカテゴリのマクロ平均の平均です。
カテゴリ別メトリクス
カテゴリ |
適合率 |
再現率 |
F1値 |
サポート |
重傷害 |
0.954 |
0.954 |
0.954 |
4085 |
武装強盗 |
0.961 |
0.955 |
0.958 |
1021 |
放火 |
0.946 |
0.954 |
0.95 |
344 |
公務員暴行 |
0.914 |
0.905 |
0.909 |
588 |
自動車窃盗 |
0.962 |
0.962 |
0.962 |
1660 |
脅迫/強要/威嚇 |
0.872 |
0.871 |
0.872 |
627 |
贈賄と利益相反 |
0.784 |
0.796 |
0.79 |
216 |
侵入窃盗 |
0.979 |
0.981 |
0.98 |
2214 |
児童虐待 |
0.805 |
0.78 |
0.792 |
139 |
コカインまたはクラック違反(不特定の犯罪) |
0.827 |
0.815 |
0.821 |
47 |
売春関連犯罪 |
0.818 |
0.788 |
0.802 |
666 |
法廷侮辱 |
0.982 |
0.987 |
0.984 |
2952 |
未成年者の非行促進 |
0.544 |
0.333 |
0.392 |
50 |
規制薬物違反(不特定の犯罪) |
0.864 |
0.791 |
0.826 |
280 |
偽造(連邦のみ) |
0 |
0 |
0 |
2 |
財産破壊 |
0.97 |
0.968 |
0.969 |
2560 |
薬物影響下での運転 |
0.567 |
0.603 |
0.581 |
34 |
飲酒運転 |
0.951 |
0.946 |
0.949 |
2195 |
酔っ払い運転 |
0.986 |
0.981 |
0.984 |
2391 |
薬物違反(不特定の犯罪) |
0.903 |
0.911 |
0.907 |
3100 |
酩酊/浮浪/乱行 |
0.856 |
0.861 |
0.858 |
380 |
横領 |
0.865 |
0.759 |
0.809 |
100 |
横領(連邦のみ) |
0 |
0 |
0 |
1 |
拘禁からの逃走 |
0.988 |
0.991 |
0.989 |
4035 |
家族関連犯罪 |
0.739 |
0.773 |
0.755 |
442 |
重罪(不特定) |
0.692 |
0.735 |
0.712 |
122 |
訴追回避のための逃亡 |
0.46 |
0.407 |
0.425 |
38 |
強制ソドミー |
0.82 |
0.8 |
0.809 |
76 |
偽造(連邦のみ) |
0 |
0 |
0 |
2 |
偽造/詐欺 |
0.911 |
0.928 |
0.919 |
4687 |
詐欺(連邦のみ) |
0 |
0 |
0 |
2 |
重窃盗 - 200ドル以上の窃盗 |
0.957 |
0.973 |
0.965 |
2412 |
常習犯 |
0.742 |
0.627 |
0.679 |
53 |
ヘロイン違反 - 不特定の犯罪 |
0.879 |
0.811 |
0.843 |
24 |
ヒットアンドラン |
0.922 |
0.94 |
0.931 |
303 |
ヒット/ラン - 財産損害 |
0.929 |
0.918 |
0.923 |
362 |
移民違反 |
0.84 |
0.609 |
0.697 |
19 |
プライバシー侵害 |
0.927 |
0.923 |
0.925 |
1235 |
少年犯罪 |
0.928 |
0.866 |
0.895 |
144 |
誘拐 |
0.937 |
0.93 |
0.933 |
553 |
窃盗 - 金額不明 |
0.955 |
0.945 |
0.95 |
3175 |
児童との猥褻行為 |
0.775 |
0.85 |
0.811 |
596 |
酒税法違反 |
0.741 |
0.768 |
0.755 |
214 |
過失致死 - 非車両関連 |
0.626 |
0.802 |
0.701 |
139 |
過失致死 - 車両関連 |
0.79 |
0.853 |
0.819 |
117 |
マリファナ/ハシシ違反 - 不特定の犯罪 |
0.741 |
0.662 |
0.699 |
62 |
軽犯罪(不特定) |
0.63 |
0.243 |
0.347 |
57 |
道徳/礼儀違反 |
0.774 |
0.764 |
0.769 |
412 |
殺人 |
0.965 |
0.915 |
0.939 |
621 |
法令執行妨害 |
0.939 |
0.947 |
0.943 |
4220 |
裁判所、立法機関、委員会に対する犯罪 |
0.881 |
0.895 |
0.888 |
1965 |
仮釈放違反 |
0.97 |
0.953 |
0.962 |
946 |
軽窃盗 - 200ドル未満の窃盗 |
0.965 |
0.761 |
0.85 |
139 |
所持/使用 - コカインまたはクラック |
0.893 |
0.928 |
0.908 |
68 |
所持/使用 - 不特定の薬物 |
0.624 |
0.535 |
0.572 |
189 |
所持/使用 - ヘロイン |
0.884 |
0.852 |
0.866 |
25 |
所持/使用 - マリファナ/ハシシ |
0.977 |
0.97 |
0.973 |
556 |
所持/使用 - その他の規制薬物 |
0.975 |
0.965 |
0.97 |
3271 |
保護観察違反 |
0.963 |
0.953 |
0.958 |
1158 |
財産犯罪 - その他 |
0.901 |
0.87 |
0.885 |
446 |
公共秩序犯罪 - その他 |
0.7 |
0.721 |
0.71 |
1871 |
脅迫利得(連邦のみ) |
0 |
0 |
0 |
2 |
強姦 - 強制 |
0.842 |
0.873 |
0.857 |
641 |
強姦 - 法定 - 強制なし |
0.707 |
0.55 |
0.611 |
140 |
規制犯罪(連邦のみ) |
0.847 |
0.567 |
0.674 |
70 |
暴動 |
0.784 |
0.605 |
0.68 |
119 |
性的暴行 - その他 |
0.836 |
0.836 |
0.836 |
971 |
軽傷害 |
0.976 |
0.967 |
0.972 |
4577 |
盗品受け取り |
0.959 |
0.957 |
0.958 |
1193 |
盗品取引 |
0.902 |
0.888 |
0.895 |
491 |
税法(連邦のみ) |
0.373 |
0.233 |
0.286 |
30 |
交通違反 - 軽微なもの |
0.974 |
0.977 |
0.976 |
8699 |
取引 - コカインまたはクラック |
0.896 |
0.951 |
0.922 |
185 |
取引 - 不特定の薬物 |
0.709 |
0.795 |
0.749 |
516 |
取引 - ヘロイン |
0.871 |
0.92 |
0.894 |
54 |
取引 - その他の規制薬物 |
0.963 |
0.954 |
0.959 |
2832 |
マリファナ/ハシシ取引 |
0.921 |
0.943 |
0.932 |
255 |
不法侵入 |
0.974 |
0.98 |
0.977 |
1916 |
非武装強盗 |
0.941 |
0.939 |
0.94 |
377 |
車両の無断使用 |
0.94 |
0.908 |
0.924 |
304 |
不特定の殺人 |
0.61 |
0.554 |
0.577 |
60 |
暴力犯罪 - その他 |
0.827 |
0.817 |
0.822 |
606 |
自発的/非過失的過失致死 |
0.619 |
0.513 |
0.542 |
54 |
武器違反 |
0.943 |
0.949 |
0.946 |
2466 |
注: サポート
は各分割で予測された観測値の平均数です。したがって、各クラスの観測値の総数はおよそサポート
の3倍です。
信頼度スコアの使用
分類確率を信頼度スコアとして解釈すると、モデルが自信のない予測をフィルタリングするために使用できます。このプロセスを3分割交差検証で適用しました。以下に示す数値は、信頼度スコアのカットオフ値p
を指定した場合に、予測データのどれだけが保持されるかを示しています。以下の数値は、モデルがこの自信のある予測のサブセットのみで評価された場合の全体的な正解率とMCCメトリクスを示しています。
|
カットオフ |
保持率 |
MCC |
正解率 |
0 |
0.85 |
0.952 |
0.96 |
0.961 |
1 |
0.9 |
0.943 |
0.964 |
0.965 |
2 |
0.95 |
0.928 |
0.97 |
0.971 |
3 |
0.975 |
0.912 |
0.975 |
0.976 |
4 |
0.99 |
0.886 |
0.982 |
0.983 |
5 |
0.999 |
0.733 |
0.995 |
0.996 |
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で提供されています。