🚀 地址命名實體識別模型(俄語)
本項目是一個地址命名實體識別(NER)模型,用於從字符串中識別地址的各個部分,能夠高效準確地處理俄語地址信息。
https://huggingface.co/aidarmusin/address-ner-ru
🚀 快速開始
代碼示例
from transformers import pipeline
import torch
import logging
device = "cuda:0" if torch.cuda.is_available() else "cpu"
logging.info(f"using device: {device}")
address_ner_pipeline = pipeline("ner", model="aidarmusin/address-ner-ru", device=device)
address = "628672,,,, Автономный Округ Ханты-Мансийский Автономный Округ - Югра,, Г. Лангепас, Ул. Солнечная, Д.21"
entities = address_ner_pipeline(address)
print(entities)
📦 數據集
- 擁有包含5000個原始地址的數據集。
- 其中90%用於模型訓練,10%用於模型評估。
📊 評估指標
指標 |
值 |
整體精確率 |
0.9550486413955048 |
整體召回率 |
0.9644308943089431 |
整體F1值 |
0.9597168380246082 |
整體準確率 |
0.9770456798596813 |
公寓F1值 |
0.9663865546218489 |
公寓數量 |
352 |
建築物精確率 |
0.8695652173913043 |
建築物召回率 |
0.9195402298850575 |
建築物F1值 |
0.8938547486033519 |
建築物數量 |
87 |
國家精確率 |
0.9950738916256158 |
國家召回率 |
0.9805825242718447 |
國家F1值 |
0.9877750611246944 |
國家數量 |
206 |
地區精確率 |
0.9562043795620438 |
地區召回率 |
0.9924242424242424 |
地區F1值 |
0.9739776951672863 |
地區數量 |
132 |
房屋精確率 |
0.9702380952380952 |
房屋召回率 |
0.9760479041916168 |
房屋F1值 |
0.973134328358209 |
房屋數量 |
501 |
行政區精確率 |
0.9826989619377162 |
行政區召回率 |
0.9861111111111112 |
行政區F1值 |
0.9844020797227037 |
行政區數量 |
288 |
定居點精確率 |
0.9599271402550091 |
定居點召回率 |
0.9547101449275363 |
定居點F1值 |
0.9573115349682106 |
定居點數量 |
552 |
街道精確率 |
0.9424603174603174 |
街道召回率 |
0.9615384615384616 |
街道F1值 |
0.9519038076152305 |
街道數量 |
494 |
郵政編碼精確率 |
0.9208211143695014 |
郵政編碼召回率 |
0.9235294117647059 |
郵政編碼F1值 |
0.9221732745961821 |
郵政編碼數量 |
340 |
📄 許可證
本項目採用Apache-2.0許可證。