🚀 地址命名实体识别模型(俄语)
本项目是一个地址命名实体识别(NER)模型,用于从字符串中识别地址的各个部分,能够高效准确地处理俄语地址信息。
https://huggingface.co/aidarmusin/address-ner-ru
🚀 快速开始
代码示例
from transformers import pipeline
import torch
import logging
device = "cuda:0" if torch.cuda.is_available() else "cpu"
logging.info(f"using device: {device}")
address_ner_pipeline = pipeline("ner", model="aidarmusin/address-ner-ru", device=device)
address = "628672,,,, Автономный Округ Ханты-Мансийский Автономный Округ - Югра,, Г. Лангепас, Ул. Солнечная, Д.21"
entities = address_ner_pipeline(address)
print(entities)
📦 数据集
- 拥有包含5000个原始地址的数据集。
- 其中90%用于模型训练,10%用于模型评估。
📊 评估指标
指标 |
值 |
整体精确率 |
0.9550486413955048 |
整体召回率 |
0.9644308943089431 |
整体F1值 |
0.9597168380246082 |
整体准确率 |
0.9770456798596813 |
公寓F1值 |
0.9663865546218489 |
公寓数量 |
352 |
建筑物精确率 |
0.8695652173913043 |
建筑物召回率 |
0.9195402298850575 |
建筑物F1值 |
0.8938547486033519 |
建筑物数量 |
87 |
国家精确率 |
0.9950738916256158 |
国家召回率 |
0.9805825242718447 |
国家F1值 |
0.9877750611246944 |
国家数量 |
206 |
地区精确率 |
0.9562043795620438 |
地区召回率 |
0.9924242424242424 |
地区F1值 |
0.9739776951672863 |
地区数量 |
132 |
房屋精确率 |
0.9702380952380952 |
房屋召回率 |
0.9760479041916168 |
房屋F1值 |
0.973134328358209 |
房屋数量 |
501 |
行政区精确率 |
0.9826989619377162 |
行政区召回率 |
0.9861111111111112 |
行政区F1值 |
0.9844020797227037 |
行政区数量 |
288 |
定居点精确率 |
0.9599271402550091 |
定居点召回率 |
0.9547101449275363 |
定居点F1值 |
0.9573115349682106 |
定居点数量 |
552 |
街道精确率 |
0.9424603174603174 |
街道召回率 |
0.9615384615384616 |
街道F1值 |
0.9519038076152305 |
街道数量 |
494 |
邮政编码精确率 |
0.9208211143695014 |
邮政编码召回率 |
0.9235294117647059 |
邮政编码F1值 |
0.9221732745961821 |
邮政编码数量 |
340 |
📄 许可证
本项目采用Apache-2.0许可证。