🚀 地理語言模型(GeoLM)用於地名識別
本模型是一個語言模型,可從句子中檢測地名(即地點名稱)。它先在全球範圍的OpenStreetMap(OSM)、WikiData和維基百科數據上進行預訓練,然後在GeoWebNews數據集上針對地名識別任務進行微調。
🚀 快速開始
本模型是為地名檢測任務微調後的GeoLM模型。輸入為句子,輸出為檢測到的地名。
要使用此模型,請參考以下代碼:
基礎用法
import torch
from transformers import AutoModelForTokenClassification, AutoTokenizer
model_name = "zekun-li/geolm-base-toponym-recognition"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
input_sentence = "Minneapolis, officially the City of Minneapolis, is a city in the state of Minnesota and the county seat of Hennepin County."
tokens = tokenizer.encode(input_sentence, return_tensors="pt")
outputs = model(tokens)
predicted_labels = torch.argmax(outputs.logits, dim=2)
predicted_labels = predicted_labels.detach().cpu().numpy()
predicted_labels = [model.config.id2label[label] for label in predicted_labels[0]]
print(predicted_labels)
高級用法
✨ 主要特性
- 可從句子中精準檢測地名。
- 基於全球範圍的OpenStreetMap(OSM)、WikiData和維基百科數據進行預訓練,再在GeoWebNews數據集上微調,具有良好的泛化能力。
📦 安裝指南
暫未提供相關安裝步驟。
📚 詳細文檔
模型詳情
模型描述
該模型先在全球範圍的OpenStreetMap(OSM)、WikiData和維基百科數據上進行預訓練,然後在GeoWebNews數據集上針對地名識別任務進行微調。
屬性 |
詳情 |
模型類型 |
用於地理空間理解的語言模型 |
語言(NLP) |
英語 |
許可證 |
cc - by - nc - 2.0 |
父模型 |
https://huggingface.co/zekun-li/geolm-base-cased |
訓練詳情
訓練數據
GeoWebNews(感謝Gritta等人)
下載鏈接:https://github.com/milangritta/Pragmatic-Guide-to-Geoparsing-Evaluation/blob/master/data/GWN.xml
訓練過程
速度、大小、時間
更多信息待補充。
評估
測試數據、指標和結果
測試數據
更多信息待補充。
指標
更多信息待補充。
結果
更多信息待補充。
技術規格(可選)
模型架構和目標
更多信息待補充。
計算基礎設施
更多信息待補充。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見Sheng等人(2021)和Bender等人(2021))。該模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
引用
BibTeX
更多信息待補充。
APA
更多信息待補充。
模型卡片作者(可選)
暫未提供相關信息。
⚠️ 重要提示
該模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
💡 使用建議
持續關注模型後續更新,以獲取更多功能和優化。