🚀 標點預測多語言模型項目
本項目專注於多語言的標點預測,利用先進的技術在多種語言上實現了出色的標點預測效果,能夠為文本添加準確的標點符號,提升文本的可讀性和理解度。
🚀 快速開始
你可以通過以下示例快速體驗模型在不同語言下的標點預測功能:
- 荷蘭語示例:輸入文本 "Ondanks dat het nu bijna voorjaar is hebben we nog steds best koude dagen"
- 意大利語示例:輸入文本 "Ho sentito che ti sei laureata il che mi fa molto piacere"
- 法語示例:輸入文本 "Tous les matins vers quatre heures mon père ouvrait la porte de ma chambre"
- 德語示例:輸入文本 "Ist das eine Frage Frau Müller"
- 英語示例:輸入文本 "My name is Clara and I live in Berkeley California"
✨ 主要特性
- 多語言支持:支持英語、德語、法語、意大利語、荷蘭語等多種語言以及多語言混合場景。
- 標點預測:能夠準確預測文本中的標點符號,如句號、逗號、問號等。
- 評估指標良好:在多種語言上取得了較高的F1分數,保證了預測的準確性。
📦 數據集
本項目使用了 wmt/europarl
數據集進行訓練。
📚 詳細文檔
分類報告
以下是所有語言的分類報告:
precision recall f1-score support
0 0.99 0.99 0.99 47903344
. 0.94 0.95 0.95 2798780
, 0.85 0.84 0.85 3451618
? 0.88 0.85 0.87 88876
- 0.61 0.32 0.42 157863
: 0.72 0.52 0.60 103789
accuracy 0.98 54504270
macro avg 0.83 0.75 0.78 54504270
weighted avg 0.98 0.98 0.98 54504270
📄 許可證
本項目採用 MIT 許可證。
📚 引用方式
如果你使用了本項目的相關成果,請按照以下格式進行引用:
@article{guhr-EtAl:2021:fullstop,
title={FullStop: Multilingual Deep Models for Punctuation Prediction},
author = {Guhr, Oliver and Schumann, Anne-Kathrin and Bahrmann, Frank and Böhme, Hans Joachim},
booktitle = {Proceedings of the Swiss Text Analytics Conference 2021},
month = {June},
year = {2021},
address = {Winterthur, Switzerland},
publisher = {CEUR Workshop Proceedings},
url = {http://ceur-ws.org/Vol-2957/sepp_paper4.pdf}
}
@misc{https://doi.org/10.48550/arxiv.2301.03319,
doi = {10.48550/ARXIV.2301.03319},
url = {https://arxiv.org/abs/2301.03319},
author = {Vandeghinste, Vincent and Guhr, Oliver},
keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), FOS: Computer and information sciences, FOS: Computer and information sciences, I.2.7},
title = {FullStop:Punctuation and Segmentation Prediction for Dutch with Transformers},
publisher = {arXiv},
year = {2023},
copyright = {Creative Commons Attribution Share Alike 4.0 International}
}