bert-base-turkish-cased-ner開源模型 - 免費部署識別土耳其語人名、組織名等地名實體

首頁

Bert Base Turkish Cased Ner

由akdeniz27開發

基於dbmdz/bert-base-turkish-cased模型微調的土耳其語命名實體識別模型，支持識別人名、組織名和地名等實體。

序列標註

Transformers

其他開源協議:MIT #土耳其語NER #高精度實體識別 #BERT微調

下載量 115.25k

發布時間 : 3/2/2022

模型概述

該模型專門用於土耳其語的命名實體識別任務，能夠識別文本中的人名(PER)、組織名(ORG)和地名(LOC)等實體。

模型特點

高精度土耳其語NER

在多個測試集上達到0.96以上的F1值，準確率超過0.99

基於BERT架構

使用dbmdz/bert-base-turkish-cased作為基礎模型，針對土耳其語優化

實體分組功能

支持通過aggregation_strategy參數對識別出的實體進行智能分組

模型能力

土耳其語文本分析

命名實體識別

人名識別

組織名識別

地名識別

使用案例

文本分析

新聞實體提取

從土耳其語新聞中提取人名、組織和地點信息

F1值達0.96以上

社交媒體分析

分析土耳其語社交媒體內容中的提及實體

🚀 土耳其命名實體識別 (NER) 模型

本模型是基於 “dbmdz/bert-base-turkish-cased” 微調得到的模型，使用了知名土耳其 NER 數據集的審核版本（https://github.com/stefan-it/turkish-bert/files/4558187/nerdata.txt）。

🚀 快速開始

本模型是一個用於土耳其語命名實體識別的工具，藉助微調後的 BERT 模型，能高效準確地識別文本中的實體。

✨ 主要特性

基於 “dbmdz/bert-base-turkish-cased” 模型微調，適配土耳其語命名實體識別任務。
經過特定數據集訓練，在多個評估指標上表現出色。

📦 安裝指南

本部分未提及具體安裝命令，因此跳過。

💻 使用示例

基礎用法

model = AutoModelForTokenClassification.from_pretrained("akdeniz27/bert-base-turkish-cased-ner")
tokenizer = AutoTokenizer.from_pretrained("akdeniz27/bert-base-turkish-cased-ner")
ner = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="first")
ner("your text here")

請參考 “https://huggingface.co/transformers/_modules/transformers/pipelines/token_classification.html” 瞭解使用 aggregation_strategy 參數進行實體分組的方法。

📚 詳細文檔

微調參數

task = "ner"
model_checkpoint = "dbmdz/bert-base-turkish-cased"
batch_size = 8 
label_list = ['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC']
max_length = 512 
learning_rate = 2e-5 
num_train_epochs = 3 
weight_decay = 0.01

參考測試結果

準確率：0.9933935699477056
F1 值：0.9592969472710453
精確率：0.9543530277931161
召回率：0.9642923563325274

使用論文 "Küçük, D., Küçük, D., Arıcı, N. 2016. Türkçe Varlık İsmi Tanıma için bir Veri Kümesi ("A Named Entity Recognition Dataset for Turkish"). IEEE Sinyal İşleme, İletişim ve Uygulamaları Kurultayı. Zonguldak, Türkiye." 中提出的測試集進行評估，結果如下：

測試集	準確率	精確率	召回率	F1 分數
20010000	0.9946	0.9871	0.9463	0.9662
20020000	0.9928	0.9134	0.9206	0.9170
20030000	0.9942	0.9814	0.9186	0.9489
20040000	0.9943	0.9660	0.9522	0.9590
20050000	0.9971	0.9539	0.9932	0.9732
20060000	0.9993	0.9942	0.9942	0.9942
20070000	0.9970	0.9806	0.9439	0.9619
20080000	0.9988	0.9821	0.9649	0.9735
20090000	0.9977	0.9891	0.9479	0.9681
20100000	0.9961	0.9684	0.9293	0.9485
總體	0.9961	0.9720	0.9516	0.9617