bert-base-turkish-uncased-ner开源模型 - 轻松实现土耳其语命名实体识别

首页

Bert Base Turkish Uncased Ner

由 saribasmetehan 开发

基于dbmdz/bert-base-turkish-uncased微调的土耳其语命名实体识别模型

序列标注

Transformers

其他开源协议:MIT #土耳其语NER #维基百科实体识别 #多类别实体标注

下载量 54

发布时间 : 6/6/2024

模型简介

该模型是在turkish-wiki_ner数据集上微调的土耳其语命名实体识别模型，支持识别18种实体类型。

模型特点

多类别实体识别

支持识别18种不同类型的命名实体，包括人物、组织、地点等

土耳其语优化

基于土耳其语预训练模型微调，针对土耳其语文本优化

维基百科数据训练

使用土耳其语维基百科数据进行训练，覆盖广泛的主题领域

模型能力

土耳其语文本分析

命名实体识别

实体分类

使用案例

文本分析

新闻文章实体提取

从土耳其语新闻中提取人物、组织、地点等关键信息

F1分数达到0.7821

知识图谱构建

为土耳其语知识图谱自动识别和分类实体

🚀 土耳其语基础无大小写BERT命名实体识别模型

本模型基于dbmdz/bert-base-turkish-uncased，在土耳其语维基百科命名实体识别（NER）数据集上进行微调，可有效识别土耳其语文本中的命名实体，为相关自然语言处理任务提供支持。

🚀 快速开始

本模型是 dbmdz/bert-base-turkish-uncased 在 turkish-wiki_ner 数据集上的微调版本。在评估集上取得了以下成绩：

损失值：0.2603
F1值：0.7821

✨ 主要特性

模型描述

该模型是 dbmdz/bert-base-turkish-uncased 在 turkish-wiki_ner 数据集上的微调版本。训练数据集包含18,967个样本，验证数据集包含1,000个样本，均来自维基百科数据。

更多详细信息，请访问此链接：https://huggingface.co/datasets/turkish-nlp-suite/turkish-wikiNER

标签信息

CARDINAL
DATE
EVENT
FAC
GPE
LANGUAGE
LAW
LOC
MONEY
NORP
ORDINAL
ORG
PERCENT
PERSON
PRODUCT
QUANTITY
TIME
TITLE
WORK_OF_ART

微调过程

微调过程详情请见：https://github.com/saribasmetehan/bert-base-turkish-uncased-ner

💻 使用示例

基础用法

from transformers import pipeline
import pandas as pd

text = "Bu toplam sıfır ise, Newton'ın birinci yasası cismin hareket durumunun değişmeyeceğini söyler."
model_id = "saribasmetehan/bert-base-turkish-uncased-ner"
ner = pipeline("ner", model = model_id)
preds = ner(text, aggregation_strategy = "simple")

pd.DataFrame(preds)

直接加载模型

from transformers import AutoModelForTokenClassification, AutoTokenizer

model_name = "saribasmetehan/bert-base-turkish-uncased-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)