🚀 多語言標點預測模型
本模型可預測英文、意大利文、法文和德文文本的標點符號,旨在恢復轉錄口語中的標點,提升文本可讀性與理解度。
🚀 快速開始
本模型能預測英、意、法、德四種語言文本的標點,可用於恢復轉錄口語的標點。它在Europarl數據集上訓練,能恢復句號、逗號、問號、連字符和冒號等標點。
✨ 主要特性
- 多語言支持:支持英文、意大利文、法文和德文等多種語言。
- 標點恢復:能夠恢復多種標點符號,如句號、逗號、問號、連字符和冒號。
- 簡單易用:提供簡單的Python包,可處理任意長度的文本。
📦 安裝指南
要開始使用,可從 pypi 安裝該包:
pip install deepmultilingualpunctuation
💻 使用示例
基礎用法
from deepmultilingualpunctuation import PunctuationModel
model = PunctuationModel()
text = "My name is Clara and I live in Berkeley California Ist das eine Frage Frau Müller"
result = model.restore_punctuation(text)
print(result)
輸出
My name is Clara and I live in Berkeley, California. Ist das eine Frage, Frau Müller?
高級用法
from deepmultilingualpunctuation import PunctuationModel
model = PunctuationModel()
text = "My name is Clara and I live in Berkeley California Ist das eine Frage Frau Müller"
clean_text = model.preprocess(text)
labled_words = model.predict(clean_text)
print(labled_words)
輸出
[['My', '0', 0.9999887], ['name', '0', 0.99998665], ['is', '0', 0.9998579], ['Clara', '0', 0.6752215], ['and', '0', 0.99990904], ['I', '0', 0.9999877], ['live', '0', 0.9999839], ['in', '0', 0.9999515], ['Berkeley', ',', 0.99800044], ['California', '.', 0.99534047], ['Ist', '0', 0.99998784], ['das', '0', 0.99999154], ['eine', '0', 0.9999918], ['Frage', ',', 0.99622655], ['Frau', '0', 0.9999889], ['Müller', '?', 0.99863917]]
📚 詳細文檔
模型性能
由於連字符和冒號在很多情況下是可選的,可由逗號或句號替代,因此不同標點符號的性能有所差異。該模型在不同語言上的F1分數如下:
標籤 |
英文 |
德文 |
法文 |
意大利文 |
無標點 |
0.991 |
0.997 |
0.992 |
0.989 |
句號 |
0.948 |
0.961 |
0.945 |
0.942 |
問號 |
0.890 |
0.893 |
0.871 |
0.832 |
逗號 |
0.819 |
0.945 |
0.831 |
0.798 |
冒號 |
0.575 |
0.652 |
0.620 |
0.588 |
連字符 |
0.425 |
0.435 |
0.431 |
0.421 |
宏平均 |
0.775 |
0.814 |
0.782 |
0.762 |
可用模型
官方模型
社區模型
你可以通過設置 model
參數來使用不同的模型:
model = PunctuationModel(model = "oliverguhr/fullstop-dutch-punctuation-prediction")
代碼與訓練
你可以在 此倉庫 中找到研究項目的完整代碼。此外,還有關於 如何針對你的數據/語言微調此模型 的指南。
🔧 技術細節
本多語言模型在 Europarl 數據集 上進行訓練,該數據集由 SEPP-NLG 共享任務 提供。需要注意的是,此數據集由政治演講組成,因此模型在其他領域的文本上可能表現不同。
📄 許可證
本項目採用 MIT 許可證。
參考文獻
@article{guhr-EtAl:2021:fullstop,
title={FullStop: Multilingual Deep Models for Punctuation Prediction},
author = {Guhr, Oliver and Schumann, Anne-Kathrin and Bahrmann, Frank and Böhme, Hans Joachim},
booktitle = {Proceedings of the Swiss Text Analytics Conference 2021},
month = {June},
year = {2021},
address = {Winterthur, Switzerland},
publisher = {CEUR Workshop Proceedings},
url = {http://ceur-ws.org/Vol-2957/sepp_paper4.pdf}
}