🚀 土耳其語基礎無大小寫BERT命名實體識別模型
本模型基於dbmdz/bert-base-turkish-uncased
,在土耳其語維基百科命名實體識別(NER)數據集上進行微調,可有效識別土耳其語文本中的命名實體,為相關自然語言處理任務提供支持。
🚀 快速開始
本模型是 dbmdz/bert-base-turkish-uncased 在 turkish-wiki_ner
數據集上的微調版本。在評估集上取得了以下成績:
✨ 主要特性
模型描述
該模型是 dbmdz/bert-base-turkish-uncased
在 turkish-wiki_ner
數據集上的微調版本。訓練數據集包含18,967個樣本,驗證數據集包含1,000個樣本,均來自維基百科數據。
更多詳細信息,請訪問此鏈接:https://huggingface.co/datasets/turkish-nlp-suite/turkish-wikiNER
標籤信息
- CARDINAL
- DATE
- EVENT
- FAC
- GPE
- LANGUAGE
- LAW
- LOC
- MONEY
- NORP
- ORDINAL
- ORG
- PERCENT
- PERSON
- PRODUCT
- QUANTITY
- TIME
- TITLE
- WORK_OF_ART
微調過程
微調過程詳情請見:https://github.com/saribasmetehan/bert-base-turkish-uncased-ner
💻 使用示例
基礎用法
from transformers import pipeline
import pandas as pd
text = "Bu toplam sıfır ise, Newton'ın birinci yasası cismin hareket durumunun değişmeyeceğini söyler."
model_id = "saribasmetehan/bert-base-turkish-uncased-ner"
ner = pipeline("ner", model = model_id)
preds = ner(text, aggregation_strategy = "simple")
pd.DataFrame(preds)
直接加載模型
from transformers import AutoModelForTokenClassification, AutoTokenizer
model_name = "saribasmetehan/bert-base-turkish-uncased-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
🔧 技術細節
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:2e-05
- 訓練批次大小:16
- 評估批次大小:16
- 隨機種子:42
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 學習率調度器類型:線性
- 訓練輪數:4
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
F1值 |
0.4 |
1.0 |
1186 |
0.2502 |
0.7703 |
0.2227 |
2.0 |
2372 |
0.2439 |
0.7740 |
0.1738 |
3.0 |
3558 |
0.2511 |
0.7783 |
0.1474 |
4.0 |
4744 |
0.2603 |
0.7821 |
框架版本
- Transformers:4.41.2
- Pytorch:2.3.0+cu121
- Datasets:2.19.2
- Tokenizers:0.19.1
📄 許可證
本模型採用MIT許可證。