🚀 基於Transformer的土耳其語標點恢復模型
本項目旨在為土耳其語文本正確添加預先確定的標點符號。我們提出了三種預訓練的Transformer模型,用於預測土耳其語中的句號(.)、逗號(,)和問號(?)。你可以在論文 基於Transformer的土耳其語標點恢復 中找到所使用的BERT模型。
喜歡我們的工作?在GitHub上給我們點個 ⭐ 吧!
🚀 快速開始
💻 使用示例
基礎用法
推薦通過HuggingFace使用本模型。你可以使用以下代碼運行預訓練的BERT模型進行推理:
from transformers import pipeline
pipe = pipeline(task="token-classification", model="uygarkurt/bert-restore-punctuation-turkish")
sample_text = "Türkiye toprakları üzerindeki ilk yerleşmeler Yontma Taş Devri'nde başlar Doğu Trakya'da Traklar olmak üzere Hititler Frigler Lidyalılar ve Dor istilası sonucu Yunanistan'dan kaçan Akalar tarafından kurulan İyon medeniyeti gibi çeşitli eski Anadolu medeniyetlerinin ardından Makedonya kralı Büyük İskender'in egemenliğiyle ve fetihleriyle birlikte Helenistik Dönem başladı"
out = pipe(sample_text)
若要使用其他預訓練模型,你只需將 model
參數替換為我們提供的 可用模型 之一。
📦 安裝指南
文檔未提及安裝步驟,此處跳過。
📚 詳細文檔
📊 數據
數據集以訓練集、驗證集和測試集的形式存放在 data/
目錄中。
數據集的概要如下:
劃分 |
總數 |
句號 (.) |
逗號 (,) |
問號 (?) |
訓練集 |
1471806 |
124817 |
98194 |
9816 |
驗證集 |
180326 |
15306 |
11980 |
1199 |
測試集 |
182487 |
15524 |
12242 |
1255 |
🧪 可用模型
我們對BERT、ELECTRA和ConvBERT進行了實驗。預訓練模型可通過Huggingface訪問。
- BERT: https://huggingface.co/uygarkurt/bert-restore-punctuation-turkish
- ELECTRA: https://huggingface.co/uygarkurt/electra-restore-punctuation-turkish
- ConvBERT: https://huggingface.co/uygarkurt/convbert-restore-punctuation-turkish
📈 結果
以下總結了每個模型和標點符號的 精確率
、召回率
和 F1
分數。
模型 |
|
句號 |
|
|
逗號 |
|
|
問號 |
|
|
總體 |
|
分數類型 |
精確率 |
召回率 |
F1 |
精確率 |
召回率 |
F1 |
精確率 |
召回率 |
F1 |
精確率 |
召回率 |
F1 |
BERT |
0.972602 |
0.947504 |
0.959952 |
0.576145 |
0.700010 |
0.632066 |
0.927642 |
0.911342 |
0.919420 |
0.825506 |
0.852952 |
0.837146 |
ELECTRA |
0.972602 |
0.948689 |
0.960497 |
0.576800 |
0.710208 |
0.636590 |
0.920325 |
0.921074 |
0.920699 |
0.823242 |
0.859990 |
0.839262 |
ConvBERT |
0.972731 |
0.946791 |
0.959585 |
0.576964 |
0.708124 |
0.635851 |
0.922764 |
0.913849 |
0.918285 |
0.824153 |
0.856254 |
0.837907 |
📖 引用
@INPROCEEDINGS{10286690,
author={Kurt, Uygar and Çayır, Aykut},
booktitle={2023 8th International Conference on Computer Science and Engineering (UBMK)},
title={Transformer Based Punctuation Restoration for Turkish},
year={2023},
volume={},
number={},
pages={169-174},
doi={10.1109/UBMK59864.2023.10286690}
}
📄 許可證
本項目採用MIT許可證。