sage-fredt5-large開源俄語拼寫檢查模型 - 免費糾正拼寫、標點和大小寫錯誤

首頁

Sage Fredt5 Large

由ai-forever開發

基於FRED-T5-large訓練的俄語拼寫檢查模型，可糾正拼寫、標點和大小寫錯誤

文本生成

Transformers

其他開源協議:MIT #俄語拼寫糾錯 #標點修正 #多領域適配

下載量 189

發布時間 : 3/11/2024

模型概述

該模型通過將文本中的所有單詞規範為俄語標準，糾正拼寫、標點錯誤和打字錯誤。基於FRED-T5-large架構訓練，訓練數據包含人工生成的錯誤樣本。

模型特點

多錯誤類型糾正

可同時處理拼寫錯誤、標點錯誤和大小寫錯誤

基於合成數據訓練

使用SAGE庫自動生成訓練數據中的錯誤樣本

多領域適應

在多個領域的測試集上表現良好，包括社交媒體、醫療和技術文本

模型能力

俄語拼寫糾正

標點符號規範化

大小寫修正

打字錯誤糾正

使用案例

文本處理

社交媒體文本規範化

糾正社交媒體中的非正式拼寫和打字錯誤

在RUSpellRU數據集上F1值達62.2

醫療文本標準化

修正醫療記錄中的拼寫和專業術語錯誤

在MedSpellchecker數據集上F1值達42.7

內容審核

用戶生成內容檢查

自動檢測並修正用戶提交內容中的語言錯誤

在MultidomainGold數據集上F1值達46.3

🚀 sage-fredt5-large

sage-fredt5-large 模型能夠將文本中的所有單詞規範為俄語標準形式，從而糾正拼寫、標點錯誤和打字錯誤。該模型基於 FRED - T5 - large 模型訓練，在俄語拼寫檢查任務中表現出色。

🚀 快速開始

你可以按照以下代碼示例使用該模型：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-large", device_map='cuda')

sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]

✨ 主要特性

該模型基於 [FRED - T5 - large](https://huggingface.co/ai - forever/FRED - T5 - large) 模型進行訓練，能夠有效糾正俄語中的拼寫和標點錯誤。
使用了基於俄語維基百科和俄語視頻轉錄本構建的大規模“人工”錯誤數據集進行訓練。

💻 使用示例

基礎用法

以下是模型輸入輸出的示例：

輸入	輸出
И не чсно прохожим в этот день непогожйи почему я веселый такйо	И не ясно прохожим в этот день непогожий, почему я веселый такой.
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай	Каждый день вот так делай и спина болеть не будет. А вот так каждый день не делай.
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно - спасательных работ по ликвидации последствий дорожно - транспортных проишествий сокращение временных показателей реагирования.	Основная цель мероприятия — практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно - спасательных работ по ликвидации последствий дорожно - транспортных происшествий, сокращение временных показателей реагирования

📚 詳細文檔

公開引用

SAGE 庫公告，DataFest 2023
[關於合成錯誤生成方法的論文](https://www.dialog - 21.ru/media/5914/martynovnplusetal056.pdf)，Dialogue 2023
[SAGE EACL 2024 論文](https://aclanthology.org/2024.findings - eacl.10/)

指標

質量

以下是用於確定拼寫檢查器正確性的自動指標。我們在四個可用數據集上，將我們的解決方案與開源自動拼寫檢查器以及 ChatGPT 系列模型進行了比較：

RUSpellRU：從 (LiveJournal) 收集的文本，其中的拼寫錯誤和打字錯誤已手動糾正。
MultidomainGold：來自 7 個文本來源的示例，包括開放網絡、新聞、社交媒體、評論、字幕、政策文件和文學作品。
MedSpellChecker：包含醫療病歷中錯誤的文本。
GitHubTypoCorpusRu：來自 GitHub 提交中的拼寫錯誤和打字錯誤。

RUSpellRU 數據集指標

模型	拼寫準確率 (Pr. (spell))	拼寫召回率 (Rec. (spell))	拼寫 F1 值 (F1 (spell))	標點準確率 (Pr. (punc))	標點召回率 (Rec. (punc))	標點 F1 值 (F1 (punc))	大小寫準確率 (Pr. (case))	大小寫召回率 (Rec. (case))	大小寫 F1 值 (F1 (case))
sage - fredt5 - large	57.3	68.0	62.2	86.7	46.1	60.2	92.1	67.8	78.1
sage - fredt5 - large (ft)	88.4	80.9	84.5	88.2	85.3	86.8	95.5	94.0	94.7
sage - ai - service	90.3	86.3	88.2	90.3	86.6	88.4	95.2	95.9	95.6
gpt - 3.5 - turbo	33.6	58.5	42.7	85.9	64.6	73.7	84.9	73.9	79.0
gpt - 4	54.9	76.7	64.0	84.0	82.3	83.2	91.5	90.2	90.9

MultidomainGold 數據集指標

模型	拼寫準確率 (Pr. (spell))	拼寫召回率 (Rec. (spell))	拼寫 F1 值 (F1 (spell))	標點準確率 (Pr. (punc))	標點召回率 (Rec. (punc))	標點 F1 值 (F1 (punc))	大小寫準確率 (Pr. (case))	大小寫召回率 (Rec. (case))	大小寫 F1 值 (F1 (case))
sage - fredt5 - large	43.4	49.7	46.3	21.8	21.3	21.6	58.8	23.9	34.0
sage - fredt5 - large (ft)	80.3	75.1	77.6	69.0	66.5	67.7	78.6	80.0	79.3
sage - ai - service	81.6	77.7	79.6	70.2	67.5	68.8	80.5	80.5	80.5
gpt - 3.5 - turbo	18.8	48.1	27.1	42.0	31.8	36.2	47.1	51.3	49.1
gpt - 4	25.4	68.0	37.0	57.8	54.3	56.0	54.0	67.5	60.0

MedSpellChecker 數據集指標

模型	拼寫準確率 (Pr. (spell))	拼寫召回率 (Rec. (spell))	拼寫 F1 值 (F1 (spell))	標點準確率 (Pr. (punc))	標點召回率 (Rec. (punc))	標點 F1 值 (F1 (punc))	大小寫準確率 (Pr. (case))	大小寫召回率 (Rec. (case))	大小寫 F1 值 (F1 (case))
sage - fredt5 - large	35.2	54.5	42.8	19.2	13.2	15.7	48.7	36.8	41.9
sage - fredt5 - large (ft)	72.5	72.2	72.3	74.6	66.4	70.3	79.3	85.1	82.1
sage - ai - service	71.3	73.5	72.4	75.1	69.2	72.0	80.9	72.8	76.6
gpt - 3.5 - turbo	14.7	45.9	22.3	69.9	52.3	59.8	26.4	41.8	32.3
gpt - 4	37.8	72.3	49.6	81.4	64.3	71.9	73.0	62.1	67.1

GitHubTypoCorpusRu 數據集指標

模型	拼寫準確率 (Pr. (spell))	拼寫召回率 (Rec. (spell))	拼寫 F1 值 (F1 (spell))	標點準確率 (Pr. (punc))	標點召回率 (Rec. (punc))	標點 F1 值 (F1 (punc))	大小寫準確率 (Pr. (case))	大小寫召回率 (Rec. (case))	大小寫 F1 值 (F1 (case))
sage - fredt5 - large	46.0	46.6	46.3	22.7	18.3	20.2	12.0	13.2	12.6
sage - fredt5 - large (ft)	67.5	53.2	59.5	48.5	38.0	42.6	37.3	50.0	42.7
sage - ai - service	70.8	56.3	62.7	48.9	35.8	41.4	32.9	45.3	38.1
gpt - 3.5 - turbo	23.7	38.7	29.4	37.6	23.3	28.7	19.6	35.9	25.3
gpt - 4	27.0	52.8	35.7	45.9	32.6	38.2	25.7	36.8	30.2

🔧 技術細節

侷限性

為了獲得更好的性能，建議在具有自然錯誤的數據集上對模型進行微調。當前實現的模型是預訓練模型，其預訓練任務在語料庫中噪聲的密度和來源方面與常規拼寫檢查有所不同。
複雜的格式可能會在輸出生成過程中帶來一些問題。

資源

[SAGE 庫](https://github.com/ai - forever/sage)，GitHub
[sage - fredt5 - large](https://huggingface.co/ai - forever/sage - fredt5 - large)，HuggingFace
[sage - fredt5 - distilled - 95m](https://huggingface.co/ai - forever/sage - fredt5 - distilled - 95m)，HuggingFace
[sage - m2m100 - 1.2B](https://huggingface.co/ai - forever/sage - m2m100 - 1.2B)，HuggingFace
[sage - mt5 - large](https://huggingface.co/ai - forever/sage - mt5 - large)，HuggingFace

規格

屬性	詳情
模型類型	基於 FRED - T5 - large 的拼寫檢查模型
訓練數據	基於俄語維基百科和俄語視頻轉錄本構建的“人工”錯誤數據集
文件大小	3.3 Gb
框架	pytorch
版本	v1.0
開發者	SberDevices, AGI NLP