GeoLM开源地名识别模型 - 免费部署，精准检测句子中全球地名

首页

Geolm Base Toponym Recognition

由 zekun-li 开发

GeoLM是一个用于从句子中检测地名的语言模型，基于全球范围的OpenStreetMap、WikiData和Wikipedia数据预训练，并在GeoWebNews数据集上微调。

序列标注

Transformers

英语#地理实体识别 #多源地理数据训练 #英文地名检测

下载量 186

发布时间 : 7/15/2023

模型简介

该模型专门用于地名检测任务，能够从输入句子中识别出地名实体。

模型特点

地理空间理解

模型经过专门训练，能够理解地理空间概念和地名实体

多源数据预训练

基于OpenStreetMap、WikiData和Wikipedia等多元地理数据进行预训练

专业领域微调

在GeoWebNews专业地名数据集上进行微调，优化地名识别性能

模型能力

地名实体识别

地理空间文本理解

标记分类

使用案例

地理信息系统

新闻地理分析

从新闻报道中提取地理位置信息，用于地理空间分析

社交媒体地理标记

识别社交媒体内容中提到的地理位置

数据标注

自动化地理数据标注

为地理数据集自动标注地名实体

🚀 地理语言模型（GeoLM）用于地名识别

本模型是一个语言模型，可从句子中检测地名（即地点名称）。它先在全球范围的OpenStreetMap（OSM）、WikiData和维基百科数据上进行预训练，然后在GeoWebNews数据集上针对地名识别任务进行微调。

🚀 快速开始

本模型是为地名检测任务微调后的GeoLM模型。输入为句子，输出为检测到的地名。

要使用此模型，请参考以下代码：

基础用法

import torch
from transformers import AutoModelForTokenClassification, AutoTokenizer

# Model name from Hugging Face model hub
model_name = "zekun-li/geolm-base-toponym-recognition"

# Load tokenizer and model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

# Example input sentence
input_sentence = "Minneapolis, officially the City of Minneapolis, is a city in the state of Minnesota and the county seat of Hennepin County."

# Tokenize input sentence
tokens = tokenizer.encode(input_sentence, return_tensors="pt")

# Pass tokens through the model
outputs = model(tokens) 

# Retrieve predicted labels for each token
predicted_labels = torch.argmax(outputs.logits, dim=2)

predicted_labels = predicted_labels.detach().cpu().numpy()

# Decode predicted labels
predicted_labels = [model.config.id2label[label] for label in predicted_labels[0]]

# Print predicted labels
print(predicted_labels)
# ['O', 'B-Topo', 'O', 'O', 'O', 'O', 'O', 'B-Topo', 'O', 'O', 'O', 'O', 'O', 'O',
# 'O', 'O', 'B-Topo', 'O', 'O', 'O', 'O', 'O', 'B-Topo', 'I-Topo', 'I-Topo', 'O', 'O', 'O']

高级用法

选项2：将权重加载到GeoLM模型 即将推出

✨ 主要特性

可从句子中精准检测地名。
基于全球范围的OpenStreetMap（OSM）、WikiData和维基百科数据进行预训练，再在GeoWebNews数据集上微调，具有良好的泛化能力。

📦 安装指南

暂未提供相关安装步骤。

📚 详细文档

模型详情

模型描述

该模型先在全球范围的OpenStreetMap（OSM）、WikiData和维基百科数据上进行预训练，然后在GeoWebNews数据集上针对地名识别任务进行微调。

属性	详情
模型类型	用于地理空间理解的语言模型
语言（NLP）	英语
许可证	cc - by - nc - 2.0
父模型	https://huggingface.co/zekun-li/geolm-base-cased