GeoLM開源地名識別模型 - 免費部署，精準檢測句子中全球地名

首頁

Geolm Base Toponym Recognition

由zekun-li開發

GeoLM是一個用於從句子中檢測地名的語言模型，基於全球範圍的OpenStreetMap、WikiData和Wikipedia數據預訓練，並在GeoWebNews數據集上微調。

序列標註

Transformers

英語#地理實體識別 #多源地理數據訓練 #英文地名檢測

下載量 186

發布時間 : 7/15/2023

模型概述

該模型專門用於地名檢測任務，能夠從輸入句子中識別出地名實體。

模型特點

地理空間理解

模型經過專門訓練，能夠理解地理空間概念和地名實體

多源數據預訓練

基於OpenStreetMap、WikiData和Wikipedia等多元地理數據進行預訓練

專業領域微調

在GeoWebNews專業地名數據集上進行微調，優化地名識別性能

模型能力

地名實體識別

地理空間文本理解

標記分類

使用案例

地理信息系統

新聞地理分析

從新聞報道中提取地理位置信息，用於地理空間分析

社交媒體地理標記

識別社交媒體內容中提到的地理位置

數據標註

自動化地理數據標註

為地理數據集自動標註地名實體

🚀 地理語言模型（GeoLM）用於地名識別

本模型是一個語言模型，可從句子中檢測地名（即地點名稱）。它先在全球範圍的OpenStreetMap（OSM）、WikiData和維基百科數據上進行預訓練，然後在GeoWebNews數據集上針對地名識別任務進行微調。

🚀 快速開始

本模型是為地名檢測任務微調後的GeoLM模型。輸入為句子，輸出為檢測到的地名。

要使用此模型，請參考以下代碼：

基礎用法

import torch
from transformers import AutoModelForTokenClassification, AutoTokenizer

# Model name from Hugging Face model hub
model_name = "zekun-li/geolm-base-toponym-recognition"

# Load tokenizer and model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

# Example input sentence
input_sentence = "Minneapolis, officially the City of Minneapolis, is a city in the state of Minnesota and the county seat of Hennepin County."

# Tokenize input sentence
tokens = tokenizer.encode(input_sentence, return_tensors="pt")

# Pass tokens through the model
outputs = model(tokens) 

# Retrieve predicted labels for each token
predicted_labels = torch.argmax(outputs.logits, dim=2)

predicted_labels = predicted_labels.detach().cpu().numpy()

# Decode predicted labels
predicted_labels = [model.config.id2label[label] for label in predicted_labels[0]]

# Print predicted labels
print(predicted_labels)
# ['O', 'B-Topo', 'O', 'O', 'O', 'O', 'O', 'B-Topo', 'O', 'O', 'O', 'O', 'O', 'O',
# 'O', 'O', 'B-Topo', 'O', 'O', 'O', 'O', 'O', 'B-Topo', 'I-Topo', 'I-Topo', 'O', 'O', 'O']

高級用法

選項2：將權重加載到GeoLM模型 即將推出

✨ 主要特性

可從句子中精準檢測地名。
基於全球範圍的OpenStreetMap（OSM）、WikiData和維基百科數據進行預訓練，再在GeoWebNews數據集上微調，具有良好的泛化能力。

📦 安裝指南

暫未提供相關安裝步驟。

📚 詳細文檔

模型詳情

模型描述

該模型先在全球範圍的OpenStreetMap（OSM）、WikiData和維基百科數據上進行預訓練，然後在GeoWebNews數據集上針對地名識別任務進行微調。

屬性	詳情
模型類型	用於地理空間理解的語言模型
語言（NLP）	英語
許可證	cc - by - nc - 2.0
父模型	https://huggingface.co/zekun-li/geolm-base-cased