sage-fredt5-large开源俄语拼写检查模型 - 免费纠正拼写、标点和大小写错误

首页

Sage Fredt5 Large

由 ai-forever 开发

基于FRED-T5-large训练的俄语拼写检查模型，可纠正拼写、标点和大小写错误

文本生成

Transformers

其他开源协议:MIT #俄语拼写纠错 #标点修正 #多领域适配

下载量 189

发布时间 : 3/11/2024

模型简介

该模型通过将文本中的所有单词规范为俄语标准，纠正拼写、标点错误和打字错误。基于FRED-T5-large架构训练，训练数据包含人工生成的错误样本。

模型特点

多错误类型纠正

可同时处理拼写错误、标点错误和大小写错误

基于合成数据训练

使用SAGE库自动生成训练数据中的错误样本

多领域适应

在多个领域的测试集上表现良好，包括社交媒体、医疗和技术文本

模型能力

俄语拼写纠正

标点符号规范化

大小写修正

打字错误纠正

使用案例

文本处理

社交媒体文本规范化

纠正社交媒体中的非正式拼写和打字错误

在RUSpellRU数据集上F1值达62.2

医疗文本标准化

修正医疗记录中的拼写和专业术语错误

在MedSpellchecker数据集上F1值达42.7

内容审核

用户生成内容检查

自动检测并修正用户提交内容中的语言错误

在MultidomainGold数据集上F1值达46.3

🚀 sage-fredt5-large

sage-fredt5-large 模型能够将文本中的所有单词规范为俄语标准形式，从而纠正拼写、标点错误和打字错误。该模型基于 FRED - T5 - large 模型训练，在俄语拼写检查任务中表现出色。

🚀 快速开始

你可以按照以下代码示例使用该模型：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-large", device_map='cuda')

sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]

✨ 主要特性

该模型基于 [FRED - T5 - large](https://huggingface.co/ai - forever/FRED - T5 - large) 模型进行训练，能够有效纠正俄语中的拼写和标点错误。
使用了基于俄语维基百科和俄语视频转录本构建的大规模“人工”错误数据集进行训练。

💻 使用示例

基础用法

以下是模型输入输出的示例：

输入	输出
И не чсно прохожим в этот день непогожйи почему я веселый такйо	И не ясно прохожим в этот день непогожий, почему я веселый такой.
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай	Каждый день вот так делай и спина болеть не будет. А вот так каждый день не делай.
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно - спасательных работ по ликвидации последствий дорожно - транспортных проишествий сокращение временных показателей реагирования.	Основная цель мероприятия — практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно - спасательных работ по ликвидации последствий дорожно - транспортных происшествий, сокращение временных показателей реагирования

📚 详细文档

公开引用

SAGE 库公告，DataFest 2023
[关于合成错误生成方法的论文](https://www.dialog - 21.ru/media/5914/martynovnplusetal056.pdf)，Dialogue 2023
[SAGE EACL 2024 论文](https://aclanthology.org/2024.findings - eacl.10/)

指标

质量

以下是用于确定拼写检查器正确性的自动指标。我们在四个可用数据集上，将我们的解决方案与开源自动拼写检查器以及 ChatGPT 系列模型进行了比较：

RUSpellRU：从 (LiveJournal) 收集的文本，其中的拼写错误和打字错误已手动纠正。
MultidomainGold：来自 7 个文本来源的示例，包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品。
MedSpellChecker：包含医疗病历中错误的文本。
GitHubTypoCorpusRu：来自 GitHub 提交中的拼写错误和打字错误。

RUSpellRU 数据集指标

模型	拼写准确率 (Pr. (spell))	拼写召回率 (Rec. (spell))	拼写 F1 值 (F1 (spell))	标点准确率 (Pr. (punc))	标点召回率 (Rec. (punc))	标点 F1 值 (F1 (punc))	大小写准确率 (Pr. (case))	大小写召回率 (Rec. (case))	大小写 F1 值 (F1 (case))
sage - fredt5 - large	57.3	68.0	62.2	86.7	46.1	60.2	92.1	67.8	78.1
sage - fredt5 - large (ft)	88.4	80.9	84.5	88.2	85.3	86.8	95.5	94.0	94.7
sage - ai - service	90.3	86.3	88.2	90.3	86.6	88.4	95.2	95.9	95.6
gpt - 3.5 - turbo	33.6	58.5	42.7	85.9	64.6	73.7	84.9	73.9	79.0
gpt - 4	54.9	76.7	64.0	84.0	82.3	83.2	91.5	90.2	90.9

MultidomainGold 数据集指标

模型	拼写准确率 (Pr. (spell))	拼写召回率 (Rec. (spell))	拼写 F1 值 (F1 (spell))	标点准确率 (Pr. (punc))	标点召回率 (Rec. (punc))	标点 F1 值 (F1 (punc))	大小写准确率 (Pr. (case))	大小写召回率 (Rec. (case))	大小写 F1 值 (F1 (case))
sage - fredt5 - large	43.4	49.7	46.3	21.8	21.3	21.6	58.8	23.9	34.0
sage - fredt5 - large (ft)	80.3	75.1	77.6	69.0	66.5	67.7	78.6	80.0	79.3
sage - ai - service	81.6	77.7	79.6	70.2	67.5	68.8	80.5	80.5	80.5
gpt - 3.5 - turbo	18.8	48.1	27.1	42.0	31.8	36.2	47.1	51.3	49.1
gpt - 4	25.4	68.0	37.0	57.8	54.3	56.0	54.0	67.5	60.0

MedSpellChecker 数据集指标

模型	拼写准确率 (Pr. (spell))	拼写召回率 (Rec. (spell))	拼写 F1 值 (F1 (spell))	标点准确率 (Pr. (punc))	标点召回率 (Rec. (punc))	标点 F1 值 (F1 (punc))	大小写准确率 (Pr. (case))	大小写召回率 (Rec. (case))	大小写 F1 值 (F1 (case))
sage - fredt5 - large	35.2	54.5	42.8	19.2	13.2	15.7	48.7	36.8	41.9
sage - fredt5 - large (ft)	72.5	72.2	72.3	74.6	66.4	70.3	79.3	85.1	82.1
sage - ai - service	71.3	73.5	72.4	75.1	69.2	72.0	80.9	72.8	76.6
gpt - 3.5 - turbo	14.7	45.9	22.3	69.9	52.3	59.8	26.4	41.8	32.3
gpt - 4	37.8	72.3	49.6	81.4	64.3	71.9	73.0	62.1	67.1

GitHubTypoCorpusRu 数据集指标

模型	拼写准确率 (Pr. (spell))	拼写召回率 (Rec. (spell))	拼写 F1 值 (F1 (spell))	标点准确率 (Pr. (punc))	标点召回率 (Rec. (punc))	标点 F1 值 (F1 (punc))	大小写准确率 (Pr. (case))	大小写召回率 (Rec. (case))	大小写 F1 值 (F1 (case))
sage - fredt5 - large	46.0	46.6	46.3	22.7	18.3	20.2	12.0	13.2	12.6
sage - fredt5 - large (ft)	67.5	53.2	59.5	48.5	38.0	42.6	37.3	50.0	42.7
sage - ai - service	70.8	56.3	62.7	48.9	35.8	41.4	32.9	45.3	38.1
gpt - 3.5 - turbo	23.7	38.7	29.4	37.6	23.3	28.7	19.6	35.9	25.3
gpt - 4	27.0	52.8	35.7	45.9	32.6	38.2	25.7	36.8	30.2

🔧 技术细节

局限性

为了获得更好的性能，建议在具有自然错误的数据集上对模型进行微调。当前实现的模型是预训练模型，其预训练任务在语料库中噪声的密度和来源方面与常规拼写检查有所不同。
复杂的格式可能会在输出生成过程中带来一些问题。

资源

[SAGE 库](https://github.com/ai - forever/sage)，GitHub
[sage - fredt5 - large](https://huggingface.co/ai - forever/sage - fredt5 - large)，HuggingFace
[sage - fredt5 - distilled - 95m](https://huggingface.co/ai - forever/sage - fredt5 - distilled - 95m)，HuggingFace
[sage - m2m100 - 1.2B](https://huggingface.co/ai - forever/sage - m2m100 - 1.2B)，HuggingFace
[sage - mt5 - large](https://huggingface.co/ai - forever/sage - mt5 - large)，HuggingFace

规格

属性	详情
模型类型	基于 FRED - T5 - large 的拼写检查模型
训练数据	基于俄语维基百科和俄语视频转录本构建的“人工”错误数据集
文件大小	3.3 Gb
框架	pytorch
版本	v1.0
开发者	SberDevices, AGI NLP