sage-fredt5-distilled-95m开源模型 - 免费实现俄语拼写、标点与大小写错误校正

首页

Sage Fredt5 Distilled 95m

由 ai-forever 开发

基于FRED-T5-1.7B架构的蒸馏模型，用于俄语拼写、标点及大小写错误的自动校正

文本生成

Transformers

其他开源协议:MIT #俄语拼写校正 #标点修复 #多领域适配

下载量 1,553

发布时间 : 3/11/2024

模型简介

该模型通过将文本中的所有单词规范化为俄语标准形式，纠正拼写、标点错误及打字错误。训练采用了包含人工错误的广泛数据集，适用于多种文本纠错场景。

模型特点

多错误类型校正

同时处理拼写错误、标点错误和大小写错误

合成数据训练

使用SAGE库自动生成训练数据中的错误，覆盖广泛错误类型

领域适应性

在通用文本和特定领域(如医学)都表现良好

模型能力

俄语拼写校正

标点符号修正

大小写规范化

打字错误纠正

使用案例

文本处理

社交媒体文本校正

修正用户生成内容中的拼写和语法错误

在LiveJournal数据集上F1达到78.9

专业文档校对

自动检查医学文档等专业文本

在医学数据集上F1达到64.9

内容生产

自动字幕校正

修正视频转录文本中的错误

🚀 sage-fredt5-distilled-95m

该模型能够将文本中的所有单词规范为俄语标准形式，从而纠正拼写和标点错误以及打字错误。

🚀 快速开始

代码示例

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-distilled-95m")

model.to("cuda")

sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]

✨ 主要特性

该模型能够将文本中的所有单词规范为俄语标准形式，从而纠正拼写和标点错误以及打字错误。
校正器是基于 FRED-T5-1.7B 架构训练的原始模型的蒸馏版本。
训练语料采用了包含 “人工” 错误的广泛数据集：该语料库基于俄语维基百科和俄语视频的文字记录进行组装，然后使用 SAGE 库自动引入拼写错误和打字错误。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-distilled-95m")

model.to("cuda")

sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]

📚 详细文档

公共引用

示例

输入	输出
И не чсно прохожим в этот день непогожйи почему я веселый такйо	И не ясно прохожим в этот день непогожий, почему я весёлый такой?
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай	Каждый день вот так делай, и спена болеть не будет. А вот так каждый день — ни делай.
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий сокращение временных показателей реагирования.	Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования.

指标

质量

以下是用于确定拼写检查器正确性的自动指标。我们在所有四个可用数据集上，将我们的解决方案与开源自动拼写检查器和 ChatGPT 系列模型进行了比较：

RUSpellRU：从 (LiveJournal) 收集的文本，其中的拼写错误和打字错误已手动纠正；
MultidomainGold：来自 7 个文本来源的示例，包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品；
MedSpellChecker：来自医疗病历的错误文本；
GitHubTypoCorpusRu：来自 GitHub 提交中的拼写错误和打字错误。

RUSpellRU

模型	拼写准确率	拼写召回率	拼写 F1 值	标点准确率	标点召回率	标点 F1 值	大小写准确率	大小写召回率	大小写 F1 值
sage-fredt5-distilled-95m	83.5	74.8	78.9	86.8	80.6	83.6	94.4	92.5	93.5
sage-ai-service	90.3	86.3	88.2	90.3	86.6	88.4	95.2	95.9	95.6
gpt-3.5-turbo	33.6	58.5	42.7	85.9	64.6	73.7	84.9	73.9	79.0
gpt-4	54.9	76.7	64.0	84.0	82.3	83.2	91.5	90.2	90.9

MultidomainGold

模型	拼写准确率	拼写召回率	拼写 F1 值	标点准确率	标点召回率	标点 F1 值	大小写准确率	大小写召回率	大小写 F1 值
sage-fredt5-distilled-95m	77.2	69.9	73.4	66.8	63.4	65.0	76.8	79.1	77.9
sage-ai-service	81.6	77.7	79.6	70.2	67.5	68.8	80.5	80.5	80.5
gpt-3.5-turbo	18.8	48.1	27.1	42.0	31.8	36.2	47.1	51.3	49.1
gpt-4	25.4	68.0	37.0	57.8	54.3	56.0	54.0	67.5	60.0

MedSpellChecker

模型	拼写准确率	拼写召回率	拼写 F1 值	标点准确率	标点召回率	标点 F1 值	大小写准确率	大小写召回率	大小写 F1 值
sage-fredt5-distilled-95m	65.1	64.8	64.9	78.6	63.1	70.0	63.5	74.7	68.7
sage-ai-service	71.3	73.5	72.4	75.1	69.2	72.0	80.9	72.8	76.6
gpt-3.5-turbo	14.7	45.9	22.3	69.9	52.3	59.8	26.4	41.8	32.3
gpt-4	37.8	72.3	49.6	81.4	64.3	71.9	73.0	62.1	67.1

GitHubTypoCorpusRu

模型	拼写准确率	拼写召回率	拼写 F1 值	标点准确率	标点召回率	标点 F1 值	大小写准确率	大小写召回率	大小写 F1 值
sage-fredt5-distilled-95m	57.8	48.5	52.7	45.2	39.5	42.1	29.9	46.2	36.3
sage-ai-service	70.8	56.3	62.7	48.9	35.8	41.4	32.9	45.3	38.1
gpt-3.5-turbo	23.7	38.7	29.4	37.6	23.3	28.7	19.6	35.9	25.3
gpt-4	27.0	52.8	35.7	45.9	32.6	38.2	25.7	36.8	30.2

局限性

复杂的格式可能会在输出生成时带来一些问题。

资源

SAGE 库，GitHub
sage-fredt5-large，HuggingFace
sage-fredt5-distilled-95m，HuggingFace
sage-m2m100-1.2B，HuggingFace
sage-mt5-large，HuggingFace

规格

属性	详情
模型类型	基于 FRED-T5-1.7B 架构的蒸馏版本
训练数据	基于俄语维基百科和俄语视频文字记录组装的数据集，使用 SAGE 库引入人工错误
文件大小	0.383 Gb
框架	pytorch
版本	v1.0
开发者	SberDevices, AGI NLP