Sage Fredt5 Distilled 95m
模型简介
该模型通过将文本中的所有单词规范化为俄语标准形式,纠正拼写、标点错误及打字错误。训练采用了包含人工错误的广泛数据集,适用于多种文本纠错场景。
模型特点
多错误类型校正
同时处理拼写错误、标点错误和大小写错误
合成数据训练
使用SAGE库自动生成训练数据中的错误,覆盖广泛错误类型
领域适应性
在通用文本和特定领域(如医学)都表现良好
模型能力
俄语拼写校正
标点符号修正
大小写规范化
打字错误纠正
使用案例
文本处理
社交媒体文本校正
修正用户生成内容中的拼写和语法错误
在LiveJournal数据集上F1达到78.9
专业文档校对
自动检查医学文档等专业文本
在医学数据集上F1达到64.9
内容生产
自动字幕校正
修正视频转录文本中的错误
🚀 sage-fredt5-distilled-95m
该模型能够将文本中的所有单词规范为俄语标准形式,从而纠正拼写和标点错误以及打字错误。
🚀 快速开始
代码示例
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model.to("cuda")
sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]
✨ 主要特性
- 该模型能够将文本中的所有单词规范为俄语标准形式,从而纠正拼写和标点错误以及打字错误。
- 校正器是基于 FRED-T5-1.7B 架构训练的原始模型的蒸馏版本。
- 训练语料采用了包含 “人工” 错误的广泛数据集:该语料库基于俄语维基百科和俄语视频的文字记录进行组装,然后使用 SAGE 库自动引入拼写错误和打字错误。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model.to("cuda")
sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]
📚 详细文档
公共引用
- SAGE 库公告,DataFest 2023
- 关于合成错误生成方法的论文,Dialogue 2023
- SAGE EACL 2024 论文
示例
输入 | 输出 |
---|---|
И не чсно прохожим в этот день непогожйи почему я веселый такйо | И не ясно прохожим в этот день непогожий, почему я весёлый такой? |
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай | Каждый день вот так делай, и спена болеть не будет. А вот так каждый день — ни делай. |
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий сокращение временных показателей реагирования. | Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования. |
指标
质量
以下是用于确定拼写检查器正确性的自动指标。我们在所有四个可用数据集上,将我们的解决方案与开源自动拼写检查器和 ChatGPT 系列模型进行了比较:
- RUSpellRU:从 (LiveJournal) 收集的文本,其中的拼写错误和打字错误已手动纠正;
- MultidomainGold:来自 7 个文本来源的示例,包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品;
- MedSpellChecker:来自医疗病历的错误文本;
- GitHubTypoCorpusRu:来自 GitHub 提交中的拼写错误和打字错误。
RUSpellRU
模型 | 拼写准确率 | 拼写召回率 | 拼写 F1 值 | 标点准确率 | 标点召回率 | 标点 F1 值 | 大小写准确率 | 大小写召回率 | 大小写 F1 值 |
---|---|---|---|---|---|---|---|---|---|
sage-fredt5-distilled-95m | 83.5 | 74.8 | 78.9 | 86.8 | 80.6 | 83.6 | 94.4 | 92.5 | 93.5 |
sage-ai-service | 90.3 | 86.3 | 88.2 | 90.3 | 86.6 | 88.4 | 95.2 | 95.9 | 95.6 |
gpt-3.5-turbo | 33.6 | 58.5 | 42.7 | 85.9 | 64.6 | 73.7 | 84.9 | 73.9 | 79.0 |
gpt-4 | 54.9 | 76.7 | 64.0 | 84.0 | 82.3 | 83.2 | 91.5 | 90.2 | 90.9 |
MultidomainGold
模型 | 拼写准确率 | 拼写召回率 | 拼写 F1 值 | 标点准确率 | 标点召回率 | 标点 F1 值 | 大小写准确率 | 大小写召回率 | 大小写 F1 值 |
---|---|---|---|---|---|---|---|---|---|
sage-fredt5-distilled-95m | 77.2 | 69.9 | 73.4 | 66.8 | 63.4 | 65.0 | 76.8 | 79.1 | 77.9 |
sage-ai-service | 81.6 | 77.7 | 79.6 | 70.2 | 67.5 | 68.8 | 80.5 | 80.5 | 80.5 |
gpt-3.5-turbo | 18.8 | 48.1 | 27.1 | 42.0 | 31.8 | 36.2 | 47.1 | 51.3 | 49.1 |
gpt-4 | 25.4 | 68.0 | 37.0 | 57.8 | 54.3 | 56.0 | 54.0 | 67.5 | 60.0 |
MedSpellChecker
模型 | 拼写准确率 | 拼写召回率 | 拼写 F1 值 | 标点准确率 | 标点召回率 | 标点 F1 值 | 大小写准确率 | 大小写召回率 | 大小写 F1 值 |
---|---|---|---|---|---|---|---|---|---|
sage-fredt5-distilled-95m | 65.1 | 64.8 | 64.9 | 78.6 | 63.1 | 70.0 | 63.5 | 74.7 | 68.7 |
sage-ai-service | 71.3 | 73.5 | 72.4 | 75.1 | 69.2 | 72.0 | 80.9 | 72.8 | 76.6 |
gpt-3.5-turbo | 14.7 | 45.9 | 22.3 | 69.9 | 52.3 | 59.8 | 26.4 | 41.8 | 32.3 |
gpt-4 | 37.8 | 72.3 | 49.6 | 81.4 | 64.3 | 71.9 | 73.0 | 62.1 | 67.1 |
GitHubTypoCorpusRu
模型 | 拼写准确率 | 拼写召回率 | 拼写 F1 值 | 标点准确率 | 标点召回率 | 标点 F1 值 | 大小写准确率 | 大小写召回率 | 大小写 F1 值 |
---|---|---|---|---|---|---|---|---|---|
sage-fredt5-distilled-95m | 57.8 | 48.5 | 52.7 | 45.2 | 39.5 | 42.1 | 29.9 | 46.2 | 36.3 |
sage-ai-service | 70.8 | 56.3 | 62.7 | 48.9 | 35.8 | 41.4 | 32.9 | 45.3 | 38.1 |
gpt-3.5-turbo | 23.7 | 38.7 | 29.4 | 37.6 | 23.3 | 28.7 | 19.6 | 35.9 | 25.3 |
gpt-4 | 27.0 | 52.8 | 35.7 | 45.9 | 32.6 | 38.2 | 25.7 | 36.8 | 30.2 |
局限性
- 复杂的格式可能会在输出生成时带来一些问题。
资源
- SAGE 库,GitHub
- sage-fredt5-large,HuggingFace
- sage-fredt5-distilled-95m,HuggingFace
- sage-m2m100-1.2B,HuggingFace
- sage-mt5-large,HuggingFace
规格
属性 | 详情 |
---|---|
模型类型 | 基于 FRED-T5-1.7B 架构的蒸馏版本 |
训练数据 | 基于俄语维基百科和俄语视频文字记录组装的数据集,使用 SAGE 库引入人工错误 |
文件大小 | 0.383 Gb |
框架 | pytorch |
版本 | v1.0 |
开发者 | SberDevices, AGI NLP |
联系方式
nikita.martynov.98@list.ru
📄 许可证
基于其构建我们解决方案的 FRED-T5-1.7B 模型及其源代码遵循 MIT 许可证。我们的解决方案也采用 MIT 许可证。
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成 英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成 英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers 英语

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers 英语

P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers 韩语

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成 英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers 英语

B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers 韩语

K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98