punctuate-all開源多語言標點預測模型 - 免費實現12種歐洲語言標點自動補全

首頁

Punctuate All

由kredor開發

基於xlm-roberta-base微調的多語言標點符號預測模型，支持12種歐洲語言的標點符號自動補全

序列標註

Transformers

開源協議:MIT #多語言標點預測 #高精度句讀恢復 #歐洲議會語料微調

下載量 728.70k

發布時間 : 4/9/2022

模型概述

該模型用於自動預測和補全文本中的標點符號，特別適用於語音轉文字後的標點符號恢復場景。相比原版模型，本版本支持更多語言但使用更小的基礎模型。

模型特點

多語言支持

支持12種歐洲語言的標點符號預測，比原版模型增加8種語言

高效模型

使用xlm-roberta-base而非large版本，在保持較好性能的同時降低計算資源需求

高準確率

在常見標點符號（如句號、逗號）上達到0.85-0.95的F1分數

模型能力

標點符號自動補全

多語言文本處理

語音轉文字後處理

使用案例

語音轉錄增強

會議記錄自動標點

將語音識別輸出的無標點文本自動添加標點符號

可準確恢復95%的句號和86%的逗號

文本預處理

機器翻譯預處理

為無標點的原始文本添加標點符號以提高翻譯質量

標點	精確率	召回率	F1分數	樣本數
0	0.99	0.99	0.99	73317475
.	0.94	0.95	0.95	4484845
,	0.86	0.86	0.86	6100650
?	0.88	0.85	0.86	136479
-	0.60	0.29	0.39	233630
:	0.71	0.49	0.58	152424

真實/預測	0	.	,	?	-	:
0	1.0	0.0	0.0	0.0	0.0	0.0
.	0.0	1.0	0.0	0.0	0.0	0.0
,	0.1	0.0	0.9	0.0	0.0	0.0
?	0.0	0.1	0.0	0.8	0.0	0.0
-	0.1	0.1	0.5	0.0	0.3	0.0
:	0.0	0.3	0.1	0.0	0.0	0.5

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Punctuate All

模型概述

模型特點

模型能力

使用案例

🚀 標點恢復模型

✨ 主要特性

📦 安裝指南

💻 使用示例

📚 詳細文檔

數據集

評估指標

評估報告

混淆矩陣

🔧 技術細節

📄 許可證

真實/預測	0	.	,	?	-	:
0	1.0	0.0	0.0	0.0	0.0	0.0
.	0.0	1.0	0.0	0.0	0.0	0.0
,	0.1	0.0	0.9	0.0	0.0	0.0
?	0.0	0.1	0.0	0.8	0.0	0.0
-	0.1	0.1	0.5	0.0	0.3	0.0
:	0.0	0.3	0.1	0.0	0.0	0.5

真實/預測	0	.	,	?	-	:
0	1.0	0.0	0.0	0.0	0.0	0.0
.	0.0	1.0	0.0	0.0	0.0	0.0
,	0.1	0.0	0.9	0.0	0.0	0.0
?	0.0	0.1	0.0	0.8	0.0	0.0
-	0.1	0.1	0.5	0.0	0.3	0.0
:	0.0	0.3	0.1	0.0	0.0	0.5

真實/預測	0	.	,	?	-	:
0	1.0	0.0	0.0	0.0	0.0	0.0
.	0.0	1.0	0.0	0.0	0.0	0.0
,	0.1	0.0	0.9	0.0	0.0	0.0
?	0.0	0.1	0.0	0.8	0.0	0.0
-	0.1	0.1	0.5	0.0	0.3	0.0
:	0.0	0.3	0.1	0.0	0.0	0.5