🚀 sage-mt5-large
sage-mt5-large模型能够对俄语和英语文本进行拼写错误和打字错误的纠正,将文本中的所有单词规范为正确的语言表达形式,为多语言文本处理提供了有效的解决方案。
🚀 快速开始
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-mt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-mt5-large", device_map='cuda')
sentence = "Перведи мне текст на аглиском: \"Screw you kuys, I am goin hme (c)."
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
✨ 主要特性
- 该模型能够纠正俄语和英语中的拼写错误和打字错误,将文本中的所有单词规范为语言标准形式。
- 基于 mT5-large 架构进行训练。
- 使用了包含“人为”错误的广泛数据集作为训练语料库,该语料库基于俄语维基百科和俄语视频的文字记录构建,并使用 SAGE 库自动引入拼写错误和打字错误。
📚 详细文档
公开引用
示例
输入 |
输出 |
Перведи мне текст на аглиском: "Screw you kuys, I am goin hme (c). |
Переведи мне текст на английском: "Screw you guys, I am going home" (c). |
И не чсно прохожим в этот день непогожйи почему я веселый такйо |
И мне ясно прохожим в этот день непогожий, почему я веселый такой |
If you bought something goregous, you well be very happy. |
If you bought something gorgeous, you will be very happy. |
指标
质量
以下是用于确定拼写检查器正确性的自动指标。我们在所有六个可用数据集上,将我们的解决方案与开放的自动拼写检查器和ChatGPT系列模型进行了比较:
- RUSpellRU:从 (LiveJournal) 收集的文本,其中的拼写错误和打字错误已手动纠正。
- MultidomainGold:来自7个文本来源的示例,包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品。
- MedSpellChecker:来自医学病历的错误文本。
- GitHubTypoCorpusRu:来自 GitHub 提交中的拼写错误和打字错误。
- BEA60K:从多个领域收集的英语拼写错误。
- JFLEG:1601个英语句子,其中包含约2000个拼写错误。
RUSpellRU、MultidomainGold、MedSpellChecker和GitHubTypoCorpusRu是用于俄语拼写检查的数据集,而BEA60K和JFLEG是用于英语的数据集。
RUSpellRU
模型 |
精确率 |
召回率 |
F1值 |
sage-mt5-large |
55.7 |
68.5 |
61.4 |
sage-mt5-large (ft.) |
88.4 |
71.6 |
79.1 |
sage-ai-service |
93.5 |
82.4 |
87.6 |
gpt-3.5-turbo |
39.6 |
62.3 |
48.5 |
gpt-4 |
69.5 |
81.0 |
74.8 |
MultidomainGold
模型 |
精确率 |
召回率 |
F1值 |
sage-mt5-large |
35.4 |
57.9 |
43.9 |
sage-mt5-large (ft.) |
65.3 |
62.7 |
63.9 |
sage-ai-service |
70.9 |
68.8 |
69.9 |
gpt-3.5-turbo |
17.8 |
56.1 |
27.0 |
gpt-4 |
31.1 |
78.1 |
44.5 |
MedSpellChecker
模型 |
精确率 |
召回率 |
F1值 |
sage-mt5-large |
35.1 |
70.8 |
47.0 |
sage-mt5-large (ft.) |
77.7 |
77.5 |
77.6 |
sage-ai-service |
73.4 |
76.2 |
74.9 |
gpt-3.5-turbo |
15.1 |
53.6 |
23.5 |
gpt-4 |
48.9 |
88.7 |
63.1 |
GitHubTypoCorpusRu
模型 |
精确率 |
召回率 |
F1值 |
sage-mt5-large |
47.4 |
53.8 |
50.4 |
sage-mt5-large (ft.) |
69.5 |
46.0 |
55.3 |
sage-ai-service |
76.1 |
51.2 |
61.2 |
gpt-3.5-turbo |
23.7 |
43.9 |
30.8 |
gpt-4 |
34.7 |
60.5 |
44.1 |
BEA60K
模型 |
精确率 |
召回率 |
F1值 |
sage-mt5-large |
64.7 |
83.8 |
73.0 |
gpt-3.5-turbo |
66.9 |
84.1 |
74.5 |
gpt-4 |
68.6 |
85.2 |
76.0 |
Bert (https://github.com/neuspell/neuspell) |
65.8 |
79.6 |
72.0 |
SC-LSTM (https://github.com/neuspell/neuspell) |
62.2 |
80.3 |
72.0 |
JFLEG
模型 |
精确率 |
召回率 |
F1值 |
sage-mt5-large |
74.9 |
88.4 |
81.1 |
gpt-3.5-turbo |
77.8 |
88.6 |
82.9 |
gpt-4 |
77.9 |
88.3 |
82.8 |
Bert (https://github.com/neuspell/neuspell) |
78.5 |
85.4 |
81.8 |
SC-LSTM (https://github.com/neuspell/neuspell) |
80.6 |
86.1 |
83.2 |
局限性
资源
规格
属性 |
详情 |
文件大小 |
5 Gb |
框架 |
pytorch |
版本 |
v1.0 |
开发者 |
SberDevices, AGI NLP |
联系方式
nikita.martynov.98@list.ru
📄 许可证
我们的解决方案基于 mT5-large 模型构建,该模型及其源代码遵循Apache-2.0许可证。我们的解决方案遵循MIT许可证。