FullStop多语言标点预测模型 - 开源支持英德法等多语言标点添加

首页

Fullstop Punctuation Multilingual Base

由 oliverguhr 开发

FullStop是一个基于Transformer的多语言标点符号预测模型，支持英语、德语、法语、意大利语、荷兰语等多种语言。

序列标注

Transformers

支持多种语言开源协议:MIT #多语言标点预测 #高精度标点恢复 #欧洲议会文本适配

下载量 19.41k

发布时间 : 3/22/2022

模型简介

该模型主要用于自动预测和恢复文本中的标点符号，适用于语音转文本后的后处理、文本规范化等场景。

模型特点

多语言支持

支持英语、德语、法语、意大利语、荷兰语等多种语言的标点符号预测

高准确率

在常见标点符号(如句号、逗号)上达到0.85-0.95的F1值

广泛适用性

基于欧洲议会语料库训练，适用于正式文本场景

模型能力

自动标点预测

多语言文本处理

语音转文本后处理

使用案例

语音转文本

会议记录自动标点

将无标点的会议语音转文本结果自动添加标点符号

提高可读性，减少人工校对工作量

文本规范化

社交媒体文本规范化

为无标点的社交媒体文本添加适当标点

改善文本结构和可读性

🚀 标点预测多语言模型项目

本项目专注于多语言的标点预测，利用先进的技术在多种语言上实现了出色的标点预测效果，能够为文本添加准确的标点符号，提升文本的可读性和理解度。

🚀 快速开始

你可以通过以下示例快速体验模型在不同语言下的标点预测功能：

荷兰语示例：输入文本 "Ondanks dat het nu bijna voorjaar is hebben we nog steds best koude dagen"
意大利语示例：输入文本 "Ho sentito che ti sei laureata il che mi fa molto piacere"
法语示例：输入文本 "Tous les matins vers quatre heures mon père ouvrait la porte de ma chambre"
德语示例：输入文本 "Ist das eine Frage Frau Müller"
英语示例：输入文本 "My name is Clara and I live in Berkeley California"

✨ 主要特性

多语言支持：支持英语、德语、法语、意大利语、荷兰语等多种语言以及多语言混合场景。
标点预测：能够准确预测文本中的标点符号，如句号、逗号、问号等。
评估指标良好：在多种语言上取得了较高的F1分数，保证了预测的准确性。

📦 数据集

本项目使用了 wmt/europarl 数据集进行训练。

📚 详细文档

分类报告

以下是所有语言的分类报告：

             precision    recall  f1-score   support

           0       0.99      0.99      0.99  47903344
           .       0.94      0.95      0.95   2798780
           ,       0.85      0.84      0.85   3451618
           ?       0.88      0.85      0.87     88876
           -       0.61      0.32      0.42    157863
           :       0.72      0.52      0.60    103789

    accuracy                           0.98  54504270
   macro avg       0.83      0.75      0.78  54504270
weighted avg       0.98      0.98      0.98  54504270

📄 许可证

本项目采用 MIT 许可证。

📚 引用方式

如果你使用了本项目的相关成果，请按照以下格式进行引用：

@article{guhr-EtAl:2021:fullstop,
  title={FullStop: Multilingual Deep Models for Punctuation Prediction},
  author    = {Guhr, Oliver  and  Schumann, Anne-Kathrin  and  Bahrmann, Frank  and  Böhme, Hans Joachim},
  booktitle      = {Proceedings of the Swiss Text Analytics Conference 2021},
  month          = {June},
  year           = {2021},
  address        = {Winterthur, Switzerland},
  publisher      = {CEUR Workshop Proceedings},  
  url       = {http://ceur-ws.org/Vol-2957/sepp_paper4.pdf}
}

@misc{https://doi.org/10.48550/arxiv.2301.03319,
  doi = {10.48550/ARXIV.2301.03319},
  url = {https://arxiv.org/abs/2301.03319},
  author = {Vandeghinste, Vincent and Guhr, Oliver},
  keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), FOS: Computer and information sciences, FOS: Computer and information sciences, I.2.7},
  title = {FullStop:Punctuation and Segmentation Prediction for Dutch with Transformers},
  publisher = {arXiv},
  year = {2023},  
  copyright = {Creative Commons Attribution Share Alike 4.0 International}
}