🚀 sage-m2m100-1.2B模型
该模型能够将文本中的所有单词规范为俄语标准形式,从而纠正拼写错误和打字错误。它基于M2M100 - 1.2B模型进行训练,为俄语拼写检查提供了高效准确的解决方案。

🚀 快速开始
该模型通过将文本中的所有单词规范为俄语语言的标准形式来纠正拼写错误和打字错误。校正器基于M2M100 - 1.2B模型进行训练。训练语料采用了一个包含“人为”错误的广泛数据集:该语料库基于俄语维基百科和俄语视频的文字记录进行组装,然后使用SAGE库自动引入拼写错误和打字错误。此模型是预训练模型的微调版本。
✨ 主要特性
- 拼写纠错:能够将文本中的单词规范为俄语标准形式,有效纠正拼写错误和打字错误。
- 广泛数据集训练:基于包含大量“人为”错误的数据集训练,该数据集来源于俄语维基百科和视频文字记录。
- 微调模型:是预训练模型RuM2M100 - 1.2B的微调版本。
📚 详细文档
公开引用
资源链接
规格说明
属性 |
详情 |
文件大小 |
5 Gb |
框架 |
pytorch |
格式 |
AI服务 |
版本 |
v2.0 |
开发者 |
SberDevices, AGI NLP |
联系方式
nikita.martynov.98@list.ru
💻 使用示例
基础用法
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
path_to_model = "ai-forever/sage-m2m100-1.2B"
model = M2M100ForConditionalGeneration.from_pretrained(path_to_model)
tokenizer = M2M100Tokenizer.from_pretrained(path_to_model, src_lang="ru", tgt_lang="ru")
sentence = "прийдя в МГТУ я был удивлен никого необноружив там…"
encodings = tokenizer(sentence, return_tensors="pt")
generated_tokens = model.generate(
**encodings, forced_bos_token_id=tokenizer.get_lang_id("ru"))
answer = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(answer)
示例展示
输入 |
输出 |
Думю ешцъа лет череа 10 ретроспективно просматривотьэ то будкетцц мне невероя тна ин те р но |
Думаю что лет через 10 ретроспективно просматривать это будет мне невероятно интересно |
Основая цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий, сокращение временных показателей реагирования. |
Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования. |
прийдя в МГТУ я был удивлен никого необноружив там… |
придя в МГТУ я был удивлен никого не обнаружив там |
🔧 技术细节
指标评估
以下是用于确定拼写检查器正确性的自动指标。我们在所有四个可用数据集上,将我们的解决方案与开源自动拼写检查器以及ChatGPT系列模型进行了比较:
- RUSpellRU:从(LiveJournal)收集的文本,其中的拼写错误和打字错误已手动纠正。
- MultidomainGold:来自7个文本来源的示例,包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品。
- MedSpellChecker:包含医疗病历中错误的文本。
- GitHubTypoCorpusRu:来自GitHub提交记录中的拼写错误和打字错误。
RUSpellRU数据集指标
模型 |
精确率 |
召回率 |
F1值 |
sage - m2m100 - 1.2B |
88.8 |
71.5 |
79.2 |
sage - ai - service |
93.5 |
82.4 |
87.6 |
gpt - 3.5 - turbo |
39.6 |
62.3 |
48.5 |
gpt - 4 |
69.5 |
81.0 |
74.8 |
Yandex.Speller |
83.0 |
59.8 |
69.5 |
JamSpell |
42.1 |
32.8 |
36.9 |
HunSpell |
31.3 |
34.9 |
33.0 |
MultidomainGold数据集指标
模型 |
精确率 |
召回率 |
F1值 |
sage - m2m100 - 1.2B |
63.8 |
61.1 |
62.4 |
sage - ai - service |
70.9 |
68.8 |
69.9 |
gpt - 3.5 - turbo |
17.8 |
56.1 |
27.0 |
gpt - 4 |
31.1 |
78.1 |
44.5 |
Yandex.Speller |
52.9 |
51.4 |
52.2 |
JamSpell |
25.7 |
30.6 |
28.0 |
HunSpell |
16.2 |
40.1 |
23.0 |
MedSpellChecker数据集指标
模型 |
精确率 |
召回率 |
F1值 |
sage - m2m100 - 1.2B |
78.8 |
71.4 |
74.9 |
sage - ai - service |
73.4 |
76.2 |
74.9 |
gpt - 3.5 - turbo |
15.1 |
53.6 |
23.5 |
gpt - 4 |
48.9 |
88.7 |
63.1 |
Yandex.Speller |
80.6 |
47.8 |
60.0 |
JamSpell |
24.6 |
29.7 |
26.9 |
HunSpell |
10.3 |
40.2 |
16.4 |
GitHubTypoCorpusRu数据集指标
模型 |
精确率 |
召回率 |
F1值 |
sage - m2m100 - 1.2B |
47.1 |
42.9 |
44.9 |
sage - ai - service |
76.1 |
51.2 |
61.2 |
gpt - 3.5 - turbo |
23.7 |
43.9 |
30.8 |
gpt - 4 |
34.7 |
60.5 |
44.1 |
Yandex.Speller |
67.7 |
37.5 |
48.3 |
JamSpell |
49.5 |
29.9 |
37.3 |
HunSpell |
28.5 |
30.7 |
29.6 |
📄 许可证
我们的解决方案基于的M2M100 - 1.2B模型及其源代码遵循MIT开放许可证。我们的解决方案也采用MIT许可证。