🚀 基于Transformer的土耳其语标点恢复模型
本项目旨在为土耳其语文本正确添加预先确定的标点符号。我们提出了三种预训练的Transformer模型,用于预测土耳其语中的句号(.)、逗号(,)和问号(?)。你可以在论文 基于Transformer的土耳其语标点恢复 中找到所使用的BERT模型。
喜欢我们的工作?在GitHub上给我们点个 ⭐ 吧!
🚀 快速开始
💻 使用示例
基础用法
推荐通过HuggingFace使用本模型。你可以使用以下代码运行预训练的BERT模型进行推理:
from transformers import pipeline
pipe = pipeline(task="token-classification", model="uygarkurt/bert-restore-punctuation-turkish")
sample_text = "Türkiye toprakları üzerindeki ilk yerleşmeler Yontma Taş Devri'nde başlar Doğu Trakya'da Traklar olmak üzere Hititler Frigler Lidyalılar ve Dor istilası sonucu Yunanistan'dan kaçan Akalar tarafından kurulan İyon medeniyeti gibi çeşitli eski Anadolu medeniyetlerinin ardından Makedonya kralı Büyük İskender'in egemenliğiyle ve fetihleriyle birlikte Helenistik Dönem başladı"
out = pipe(sample_text)
若要使用其他预训练模型,你只需将 model
参数替换为我们提供的 可用模型 之一。
📦 安装指南
文档未提及安装步骤,此处跳过。
📚 详细文档
📊 数据
数据集以训练集、验证集和测试集的形式存放在 data/
目录中。
数据集的概要如下:
划分 |
总数 |
句号 (.) |
逗号 (,) |
问号 (?) |
训练集 |
1471806 |
124817 |
98194 |
9816 |
验证集 |
180326 |
15306 |
11980 |
1199 |
测试集 |
182487 |
15524 |
12242 |
1255 |
🧪 可用模型
我们对BERT、ELECTRA和ConvBERT进行了实验。预训练模型可通过Huggingface访问。
- BERT: https://huggingface.co/uygarkurt/bert-restore-punctuation-turkish
- ELECTRA: https://huggingface.co/uygarkurt/electra-restore-punctuation-turkish
- ConvBERT: https://huggingface.co/uygarkurt/convbert-restore-punctuation-turkish
📈 结果
以下总结了每个模型和标点符号的 精确率
、召回率
和 F1
分数。
模型 |
|
句号 |
|
|
逗号 |
|
|
问号 |
|
|
总体 |
|
分数类型 |
精确率 |
召回率 |
F1 |
精确率 |
召回率 |
F1 |
精确率 |
召回率 |
F1 |
精确率 |
召回率 |
F1 |
BERT |
0.972602 |
0.947504 |
0.959952 |
0.576145 |
0.700010 |
0.632066 |
0.927642 |
0.911342 |
0.919420 |
0.825506 |
0.852952 |
0.837146 |
ELECTRA |
0.972602 |
0.948689 |
0.960497 |
0.576800 |
0.710208 |
0.636590 |
0.920325 |
0.921074 |
0.920699 |
0.823242 |
0.859990 |
0.839262 |
ConvBERT |
0.972731 |
0.946791 |
0.959585 |
0.576964 |
0.708124 |
0.635851 |
0.922764 |
0.913849 |
0.918285 |
0.824153 |
0.856254 |
0.837907 |
📖 引用
@INPROCEEDINGS{10286690,
author={Kurt, Uygar and Çayır, Aykut},
booktitle={2023 8th International Conference on Computer Science and Engineering (UBMK)},
title={Transformer Based Punctuation Restoration for Turkish},
year={2023},
volume={},
number={},
pages={169-174},
doi={10.1109/UBMK59864.2023.10286690}
}
📄 许可证
本项目采用MIT许可证。