bert-base-turkish-uncased-ner開源模型 - 輕鬆實現土耳其語命名實體識別

首頁

Bert Base Turkish Uncased Ner

由saribasmetehan開發

基於dbmdz/bert-base-turkish-uncased微調的土耳其語命名實體識別模型

序列標註

Transformers

其他開源協議:MIT #土耳其語NER #維基百科實體識別 #多類別實體標註

下載量 54

發布時間 : 6/6/2024

模型概述

該模型是在turkish-wiki_ner數據集上微調的土耳其語命名實體識別模型，支持識別18種實體類型。

模型特點

多類別實體識別

支持識別18種不同類型的命名實體，包括人物、組織、地點等

土耳其語優化

基於土耳其語預訓練模型微調，針對土耳其語文本優化

維基百科數據訓練

使用土耳其語維基百科數據進行訓練，覆蓋廣泛的主題領域

模型能力

土耳其語文本分析

命名實體識別

實體分類

使用案例

文本分析

新聞文章實體提取

從土耳其語新聞中提取人物、組織、地點等關鍵信息

F1分數達到0.7821

知識圖譜構建

為土耳其語知識圖譜自動識別和分類實體

🚀 土耳其語基礎無大小寫BERT命名實體識別模型

本模型基於dbmdz/bert-base-turkish-uncased，在土耳其語維基百科命名實體識別（NER）數據集上進行微調，可有效識別土耳其語文本中的命名實體，為相關自然語言處理任務提供支持。

🚀 快速開始

本模型是 dbmdz/bert-base-turkish-uncased 在 turkish-wiki_ner 數據集上的微調版本。在評估集上取得了以下成績：

損失值：0.2603
F1值：0.7821

✨ 主要特性

模型描述

該模型是 dbmdz/bert-base-turkish-uncased 在 turkish-wiki_ner 數據集上的微調版本。訓練數據集包含18,967個樣本，驗證數據集包含1,000個樣本，均來自維基百科數據。

更多詳細信息，請訪問此鏈接：https://huggingface.co/datasets/turkish-nlp-suite/turkish-wikiNER

標籤信息

CARDINAL
DATE
EVENT
FAC
GPE
LANGUAGE
LAW
LOC
MONEY
NORP
ORDINAL
ORG
PERCENT
PERSON
PRODUCT
QUANTITY
TIME
TITLE
WORK_OF_ART

微調過程

微調過程詳情請見：https://github.com/saribasmetehan/bert-base-turkish-uncased-ner

💻 使用示例

基礎用法

from transformers import pipeline
import pandas as pd

text = "Bu toplam sıfır ise, Newton'ın birinci yasası cismin hareket durumunun değişmeyeceğini söyler."
model_id = "saribasmetehan/bert-base-turkish-uncased-ner"
ner = pipeline("ner", model = model_id)
preds = ner(text, aggregation_strategy = "simple")

pd.DataFrame(preds)

直接加載模型

from transformers import AutoModelForTokenClassification, AutoTokenizer

model_name = "saribasmetehan/bert-base-turkish-uncased-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)