FullStop多語言標點預測模型 - 開源支持英德法等多語言標點添加

首頁

Fullstop Punctuation Multilingual Base

由oliverguhr開發

FullStop是一個基於Transformer的多語言標點符號預測模型，支持英語、德語、法語、意大利語、荷蘭語等多種語言。

序列標註

Transformers

支持多種語言開源協議:MIT #多語言標點預測 #高精度標點恢復 #歐洲議會文本適配

下載量 19.41k

發布時間 : 3/22/2022

模型概述

該模型主要用於自動預測和恢復文本中的標點符號，適用於語音轉文本後的後處理、文本規範化等場景。

模型特點

多語言支持

支持英語、德語、法語、意大利語、荷蘭語等多種語言的標點符號預測

高準確率

在常見標點符號(如句號、逗號)上達到0.85-0.95的F1值

廣泛適用性

基於歐洲議會語料庫訓練，適用於正式文本場景

模型能力

自動標點預測

多語言文本處理

語音轉文本後處理

使用案例

語音轉文本

會議記錄自動標點

將無標點的會議語音轉文本結果自動添加標點符號

提高可讀性，減少人工校對工作量

文本規範化

社交媒體文本規範化

為無標點的社交媒體文本添加適當標點

改善文本結構和可讀性

🚀 標點預測多語言模型項目

本項目專注於多語言的標點預測，利用先進的技術在多種語言上實現了出色的標點預測效果，能夠為文本添加準確的標點符號，提升文本的可讀性和理解度。

🚀 快速開始

你可以通過以下示例快速體驗模型在不同語言下的標點預測功能：

荷蘭語示例：輸入文本 "Ondanks dat het nu bijna voorjaar is hebben we nog steds best koude dagen"
意大利語示例：輸入文本 "Ho sentito che ti sei laureata il che mi fa molto piacere"
法語示例：輸入文本 "Tous les matins vers quatre heures mon père ouvrait la porte de ma chambre"
德語示例：輸入文本 "Ist das eine Frage Frau Müller"
英語示例：輸入文本 "My name is Clara and I live in Berkeley California"

✨ 主要特性

多語言支持：支持英語、德語、法語、意大利語、荷蘭語等多種語言以及多語言混合場景。
標點預測：能夠準確預測文本中的標點符號，如句號、逗號、問號等。
評估指標良好：在多種語言上取得了較高的F1分數，保證了預測的準確性。

📦 數據集

本項目使用了 wmt/europarl 數據集進行訓練。

📚 詳細文檔

分類報告

以下是所有語言的分類報告：

             precision    recall  f1-score   support

           0       0.99      0.99      0.99  47903344
           .       0.94      0.95      0.95   2798780
           ,       0.85      0.84      0.85   3451618
           ?       0.88      0.85      0.87     88876
           -       0.61      0.32      0.42    157863
           :       0.72      0.52      0.60    103789

    accuracy                           0.98  54504270
   macro avg       0.83      0.75      0.78  54504270
weighted avg       0.98      0.98      0.98  54504270

📄 許可證

本項目採用 MIT 許可證。

📚 引用方式

如果你使用了本項目的相關成果，請按照以下格式進行引用：

@article{guhr-EtAl:2021:fullstop,
  title={FullStop: Multilingual Deep Models for Punctuation Prediction},
  author    = {Guhr, Oliver  and  Schumann, Anne-Kathrin  and  Bahrmann, Frank  and  Böhme, Hans Joachim},
  booktitle      = {Proceedings of the Swiss Text Analytics Conference 2021},
  month          = {June},
  year           = {2021},
  address        = {Winterthur, Switzerland},
  publisher      = {CEUR Workshop Proceedings},  
  url       = {http://ceur-ws.org/Vol-2957/sepp_paper4.pdf}
}

@misc{https://doi.org/10.48550/arxiv.2301.03319,
  doi = {10.48550/ARXIV.2301.03319},
  url = {https://arxiv.org/abs/2301.03319},
  author = {Vandeghinste, Vincent and Guhr, Oliver},
  keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), FOS: Computer and information sciences, FOS: Computer and information sciences, I.2.7},
  title = {FullStop:Punctuation and Segmentation Prediction for Dutch with Transformers},
  publisher = {arXiv},
  year = {2023},  
  copyright = {Creative Commons Attribution Share Alike 4.0 International}
}