🚀 土耳其语基础无大小写BERT命名实体识别模型
本模型基于dbmdz/bert-base-turkish-uncased
,在土耳其语维基百科命名实体识别(NER)数据集上进行微调,可有效识别土耳其语文本中的命名实体,为相关自然语言处理任务提供支持。
🚀 快速开始
本模型是 dbmdz/bert-base-turkish-uncased 在 turkish-wiki_ner
数据集上的微调版本。在评估集上取得了以下成绩:
✨ 主要特性
模型描述
该模型是 dbmdz/bert-base-turkish-uncased
在 turkish-wiki_ner
数据集上的微调版本。训练数据集包含18,967个样本,验证数据集包含1,000个样本,均来自维基百科数据。
更多详细信息,请访问此链接:https://huggingface.co/datasets/turkish-nlp-suite/turkish-wikiNER
标签信息
- CARDINAL
- DATE
- EVENT
- FAC
- GPE
- LANGUAGE
- LAW
- LOC
- MONEY
- NORP
- ORDINAL
- ORG
- PERCENT
- PERSON
- PRODUCT
- QUANTITY
- TIME
- TITLE
- WORK_OF_ART
微调过程
微调过程详情请见:https://github.com/saribasmetehan/bert-base-turkish-uncased-ner
💻 使用示例
基础用法
from transformers import pipeline
import pandas as pd
text = "Bu toplam sıfır ise, Newton'ın birinci yasası cismin hareket durumunun değişmeyeceğini söyler."
model_id = "saribasmetehan/bert-base-turkish-uncased-ner"
ner = pipeline("ner", model = model_id)
preds = ner(text, aggregation_strategy = "simple")
pd.DataFrame(preds)
直接加载模型
from transformers import AutoModelForTokenClassification, AutoTokenizer
model_name = "saribasmetehan/bert-base-turkish-uncased-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
🔧 技术细节
训练超参数
训练过程中使用了以下超参数:
- 学习率:2e-05
- 训练批次大小:16
- 评估批次大小:16
- 随机种子:42
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 学习率调度器类型:线性
- 训练轮数:4
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
F1值 |
0.4 |
1.0 |
1186 |
0.2502 |
0.7703 |
0.2227 |
2.0 |
2372 |
0.2439 |
0.7740 |
0.1738 |
3.0 |
3558 |
0.2511 |
0.7783 |
0.1474 |
4.0 |
4744 |
0.2603 |
0.7821 |
框架版本
- Transformers:4.41.2
- Pytorch:2.3.0+cu121
- Datasets:2.19.2
- Tokenizers:0.19.1
📄 许可证
本模型采用MIT许可证。