sage-m2m100-1.2B开源俄语拼写检查器 - 免费纠正拼写及打字错误

首页

Sage M2m100 1.2B

由 ai-forever 开发

基于M2M100-1.2B模型训练的俄语拼写检查器，用于纠正拼写错误和打字错误

机器翻译

Transformers

其他开源协议:MIT #俄语拼写纠错 #多领域文本规范 #高精度语法修正

下载量 184

发布时间 : 3/11/2024

模型简介

该模型通过将文本中的所有单词规范为俄语标准来纠正拼写错误和打字错误。训练语料库采用了包含'人工'错误的广泛数据集，基于俄语维基百科和俄语视频转录构建。

模型特点

多领域适用

在多个不同领域的俄语数据集上表现良好，包括社交媒体、医疗和技术文本

高精度纠正

在RUSpellRU数据集上达到88.8%的精确率和71.5%的召回率

基于大模型

基于1.2B参数的M2M100模型微调，具有较强的语言理解能力

模型能力

俄语拼写检查

打字错误纠正

文本规范化

使用案例

文本处理

社交媒体文本纠正

纠正社交媒体中的非标准拼写和打字错误

在RUSpellRU数据集上F1值达79.2

医疗文本标准化

纠正医疗病史中的专业术语拼写错误

在MedSpellchecker数据集上F1值达74.9

技术文档处理

代码注释纠错

纠正GitHub代码提交中的拼写错误

在GitHubTypoCorpusRu数据集上F1值达44.9

🚀 sage-m2m100-1.2B模型

该模型能够将文本中的所有单词规范为俄语标准形式，从而纠正拼写错误和打字错误。它基于M2M100 - 1.2B模型进行训练，为俄语拼写检查提供了高效准确的解决方案。

banner

🚀 快速开始

该模型通过将文本中的所有单词规范为俄语语言的标准形式来纠正拼写错误和打字错误。校正器基于M2M100 - 1.2B模型进行训练。训练语料采用了一个包含“人为”错误的广泛数据集：该语料库基于俄语维基百科和俄语视频的文字记录进行组装，然后使用SAGE库自动引入拼写错误和打字错误。此模型是预训练模型的微调版本。

✨ 主要特性

拼写纠错：能够将文本中的单词规范为俄语标准形式，有效纠正拼写错误和打字错误。
广泛数据集训练：基于包含大量“人为”错误的数据集训练，该数据集来源于俄语维基百科和视频文字记录。
微调模型：是预训练模型RuM2M100 - 1.2B的微调版本。

📚 详细文档

公开引用

资源链接

SAGE库，GitHub
sage - fredt5 - large，HuggingFace
sage - fredt5 - distilled - 95m，HuggingFace
sage - m2m100 - 1.2B，HuggingFace
sage - mt5 - large，HuggingFace

规格说明

属性	详情
文件大小	5 Gb
框架	pytorch
格式	AI服务
版本	v2.0
开发者	SberDevices, AGI NLP

联系方式

nikita.martynov.98@list.ru

💻 使用示例

基础用法

from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer

path_to_model = "ai-forever/sage-m2m100-1.2B"
model = M2M100ForConditionalGeneration.from_pretrained(path_to_model)
tokenizer = M2M100Tokenizer.from_pretrained(path_to_model, src_lang="ru", tgt_lang="ru")

sentence = "прийдя в МГТУ я был удивлен никого необноружив там…"
encodings = tokenizer(sentence, return_tensors="pt")
generated_tokens = model.generate(
        **encodings, forced_bos_token_id=tokenizer.get_lang_id("ru"))
answer = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)

print(answer)
#["прийдя в МГТУ я был удивлен никого не обнаружив там..."]

示例展示

输入	输出
Думю ешцъа лет череа 10 ретроспективно просматривотьэ то будкетцц мне невероя тна ин те р но	Думаю что лет через 10 ретроспективно просматривать это будет мне невероятно интересно
Основая цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий, сокращение временных показателей реагирования.	Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования.
прийдя в МГТУ я был удивлен никого необноружив там…	придя в МГТУ я был удивлен никого не обнаружив там

🔧 技术细节

指标评估

以下是用于确定拼写检查器正确性的自动指标。我们在所有四个可用数据集上，将我们的解决方案与开源自动拼写检查器以及ChatGPT系列模型进行了比较：

RUSpellRU：从(LiveJournal)收集的文本，其中的拼写错误和打字错误已手动纠正。
MultidomainGold：来自7个文本来源的示例，包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品。
MedSpellChecker：包含医疗病历中错误的文本。
GitHubTypoCorpusRu：来自GitHub提交记录中的拼写错误和打字错误。

RUSpellRU数据集指标

模型	精确率	召回率	F1值
sage - m2m100 - 1.2B	88.8	71.5	79.2
sage - ai - service	93.5	82.4	87.6
gpt - 3.5 - turbo	39.6	62.3	48.5
gpt - 4	69.5	81.0	74.8
Yandex.Speller	83.0	59.8	69.5
JamSpell	42.1	32.8	36.9
HunSpell	31.3	34.9	33.0

MultidomainGold数据集指标

模型	精确率	召回率	F1值
sage - m2m100 - 1.2B	63.8	61.1	62.4
sage - ai - service	70.9	68.8	69.9
gpt - 3.5 - turbo	17.8	56.1	27.0
gpt - 4	31.1	78.1	44.5
Yandex.Speller	52.9	51.4	52.2
JamSpell	25.7	30.6	28.0
HunSpell	16.2	40.1	23.0

MedSpellChecker数据集指标

模型	精确率	召回率	F1值
sage - m2m100 - 1.2B	78.8	71.4	74.9
sage - ai - service	73.4	76.2	74.9
gpt - 3.5 - turbo	15.1	53.6	23.5
gpt - 4	48.9	88.7	63.1
Yandex.Speller	80.6	47.8	60.0
JamSpell	24.6	29.7	26.9
HunSpell	10.3	40.2	16.4

GitHubTypoCorpusRu数据集指标

模型	精确率	召回率	F1值
sage - m2m100 - 1.2B	47.1	42.9	44.9
sage - ai - service	76.1	51.2	61.2
gpt - 3.5 - turbo	23.7	43.9	30.8
gpt - 4	34.7	60.5	44.1
Yandex.Speller	67.7	37.5	48.3
JamSpell	49.5	29.9	37.3
HunSpell	28.5	30.7	29.6