Sage Fredt5 Large
模型简介
该模型通过将文本中的所有单词规范为俄语标准,纠正拼写、标点错误和打字错误。基于FRED-T5-large架构训练,训练数据包含人工生成的错误样本。
模型特点
多错误类型纠正
可同时处理拼写错误、标点错误和大小写错误
基于合成数据训练
使用SAGE库自动生成训练数据中的错误样本
多领域适应
在多个领域的测试集上表现良好,包括社交媒体、医疗和技术文本
模型能力
俄语拼写纠正
标点符号规范化
大小写修正
打字错误纠正
使用案例
文本处理
社交媒体文本规范化
纠正社交媒体中的非正式拼写和打字错误
在RUSpellRU数据集上F1值达62.2
医疗文本标准化
修正医疗记录中的拼写和专业术语错误
在MedSpellchecker数据集上F1值达42.7
内容审核
用户生成内容检查
自动检测并修正用户提交内容中的语言错误
在MultidomainGold数据集上F1值达46.3
🚀 sage-fredt5-large
sage-fredt5-large 模型能够将文本中的所有单词规范为俄语标准形式,从而纠正拼写、标点错误和打字错误。该模型基于 FRED - T5 - large 模型训练,在俄语拼写检查任务中表现出色。
🚀 快速开始
你可以按照以下代码示例使用该模型:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-large", device_map='cuda')
sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]
✨ 主要特性
- 该模型基于 [FRED - T5 - large](https://huggingface.co/ai - forever/FRED - T5 - large) 模型进行训练,能够有效纠正俄语中的拼写和标点错误。
- 使用了基于俄语维基百科和俄语视频转录本构建的大规模“人工”错误数据集进行训练。
💻 使用示例
基础用法
以下是模型输入输出的示例:
输入 | 输出 |
---|---|
И не чсно прохожим в этот день непогожйи почему я веселый такйо | И не ясно прохожим в этот день непогожий, почему я веселый такой. |
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай | Каждый день вот так делай и спина болеть не будет. А вот так каждый день не делай. |
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно - спасательных работ по ликвидации последствий дорожно - транспортных проишествий сокращение временных показателей реагирования. | Основная цель мероприятия — практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно - спасательных работ по ликвидации последствий дорожно - транспортных происшествий, сокращение временных показателей реагирования |
📚 详细文档
公开引用
- SAGE 库公告,DataFest 2023
- [关于合成错误生成方法的论文](https://www.dialog - 21.ru/media/5914/martynovnplusetal056.pdf),Dialogue 2023
- [SAGE EACL 2024 论文](https://aclanthology.org/2024.findings - eacl.10/)
指标
质量
以下是用于确定拼写检查器正确性的自动指标。我们在四个可用数据集上,将我们的解决方案与开源自动拼写检查器以及 ChatGPT 系列模型进行了比较:
- RUSpellRU:从 (LiveJournal) 收集的文本,其中的拼写错误和打字错误已手动纠正。
- MultidomainGold:来自 7 个文本来源的示例,包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品。
- MedSpellChecker:包含医疗病历中错误的文本。
- GitHubTypoCorpusRu:来自 GitHub 提交中的拼写错误和打字错误。
RUSpellRU 数据集指标
模型 | 拼写准确率 (Pr. (spell)) | 拼写召回率 (Rec. (spell)) | 拼写 F1 值 (F1 (spell)) | 标点准确率 (Pr. (punc)) | 标点召回率 (Rec. (punc)) | 标点 F1 值 (F1 (punc)) | 大小写准确率 (Pr. (case)) | 大小写召回率 (Rec. (case)) | 大小写 F1 值 (F1 (case)) |
---|---|---|---|---|---|---|---|---|---|
sage - fredt5 - large | 57.3 | 68.0 | 62.2 | 86.7 | 46.1 | 60.2 | 92.1 | 67.8 | 78.1 |
sage - fredt5 - large (ft) | 88.4 | 80.9 | 84.5 | 88.2 | 85.3 | 86.8 | 95.5 | 94.0 | 94.7 |
sage - ai - service | 90.3 | 86.3 | 88.2 | 90.3 | 86.6 | 88.4 | 95.2 | 95.9 | 95.6 |
gpt - 3.5 - turbo | 33.6 | 58.5 | 42.7 | 85.9 | 64.6 | 73.7 | 84.9 | 73.9 | 79.0 |
gpt - 4 | 54.9 | 76.7 | 64.0 | 84.0 | 82.3 | 83.2 | 91.5 | 90.2 | 90.9 |
MultidomainGold 数据集指标
模型 | 拼写准确率 (Pr. (spell)) | 拼写召回率 (Rec. (spell)) | 拼写 F1 值 (F1 (spell)) | 标点准确率 (Pr. (punc)) | 标点召回率 (Rec. (punc)) | 标点 F1 值 (F1 (punc)) | 大小写准确率 (Pr. (case)) | 大小写召回率 (Rec. (case)) | 大小写 F1 值 (F1 (case)) |
---|---|---|---|---|---|---|---|---|---|
sage - fredt5 - large | 43.4 | 49.7 | 46.3 | 21.8 | 21.3 | 21.6 | 58.8 | 23.9 | 34.0 |
sage - fredt5 - large (ft) | 80.3 | 75.1 | 77.6 | 69.0 | 66.5 | 67.7 | 78.6 | 80.0 | 79.3 |
sage - ai - service | 81.6 | 77.7 | 79.6 | 70.2 | 67.5 | 68.8 | 80.5 | 80.5 | 80.5 |
gpt - 3.5 - turbo | 18.8 | 48.1 | 27.1 | 42.0 | 31.8 | 36.2 | 47.1 | 51.3 | 49.1 |
gpt - 4 | 25.4 | 68.0 | 37.0 | 57.8 | 54.3 | 56.0 | 54.0 | 67.5 | 60.0 |
MedSpellChecker 数据集指标
模型 | 拼写准确率 (Pr. (spell)) | 拼写召回率 (Rec. (spell)) | 拼写 F1 值 (F1 (spell)) | 标点准确率 (Pr. (punc)) | 标点召回率 (Rec. (punc)) | 标点 F1 值 (F1 (punc)) | 大小写准确率 (Pr. (case)) | 大小写召回率 (Rec. (case)) | 大小写 F1 值 (F1 (case)) |
---|---|---|---|---|---|---|---|---|---|
sage - fredt5 - large | 35.2 | 54.5 | 42.8 | 19.2 | 13.2 | 15.7 | 48.7 | 36.8 | 41.9 |
sage - fredt5 - large (ft) | 72.5 | 72.2 | 72.3 | 74.6 | 66.4 | 70.3 | 79.3 | 85.1 | 82.1 |
sage - ai - service | 71.3 | 73.5 | 72.4 | 75.1 | 69.2 | 72.0 | 80.9 | 72.8 | 76.6 |
gpt - 3.5 - turbo | 14.7 | 45.9 | 22.3 | 69.9 | 52.3 | 59.8 | 26.4 | 41.8 | 32.3 |
gpt - 4 | 37.8 | 72.3 | 49.6 | 81.4 | 64.3 | 71.9 | 73.0 | 62.1 | 67.1 |
GitHubTypoCorpusRu 数据集指标
模型 | 拼写准确率 (Pr. (spell)) | 拼写召回率 (Rec. (spell)) | 拼写 F1 值 (F1 (spell)) | 标点准确率 (Pr. (punc)) | 标点召回率 (Rec. (punc)) | 标点 F1 值 (F1 (punc)) | 大小写准确率 (Pr. (case)) | 大小写召回率 (Rec. (case)) | 大小写 F1 值 (F1 (case)) |
---|---|---|---|---|---|---|---|---|---|
sage - fredt5 - large | 46.0 | 46.6 | 46.3 | 22.7 | 18.3 | 20.2 | 12.0 | 13.2 | 12.6 |
sage - fredt5 - large (ft) | 67.5 | 53.2 | 59.5 | 48.5 | 38.0 | 42.6 | 37.3 | 50.0 | 42.7 |
sage - ai - service | 70.8 | 56.3 | 62.7 | 48.9 | 35.8 | 41.4 | 32.9 | 45.3 | 38.1 |
gpt - 3.5 - turbo | 23.7 | 38.7 | 29.4 | 37.6 | 23.3 | 28.7 | 19.6 | 35.9 | 25.3 |
gpt - 4 | 27.0 | 52.8 | 35.7 | 45.9 | 32.6 | 38.2 | 25.7 | 36.8 | 30.2 |
🔧 技术细节
局限性
- 为了获得更好的性能,建议在具有自然错误的数据集上对模型进行微调。当前实现的模型是预训练模型,其预训练任务在语料库中噪声的密度和来源方面与常规拼写检查有所不同。
- 复杂的格式可能会在输出生成过程中带来一些问题。
资源
- [SAGE 库](https://github.com/ai - forever/sage),GitHub
- [sage - fredt5 - large](https://huggingface.co/ai - forever/sage - fredt5 - large),HuggingFace
- [sage - fredt5 - distilled - 95m](https://huggingface.co/ai - forever/sage - fredt5 - distilled - 95m),HuggingFace
- [sage - m2m100 - 1.2B](https://huggingface.co/ai - forever/sage - m2m100 - 1.2B),HuggingFace
- [sage - mt5 - large](https://huggingface.co/ai - forever/sage - mt5 - large),HuggingFace
规格
属性 | 详情 |
---|---|
模型类型 | 基于 FRED - T5 - large 的拼写检查模型 |
训练数据 | 基于俄语维基百科和俄语视频转录本构建的“人工”错误数据集 |
文件大小 | 3.3 Gb |
框架 | pytorch |
版本 | v1.0 |
开发者 | SberDevices, AGI NLP |
联系方式
nikita.martynov.98@list.ru
📄 许可证
基于 [FRED - T5 - large](https://huggingface.co/ai - forever/FRED - T5 - large) 模型开发的本解决方案及其源代码均遵循 MIT 许可证。
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成 英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成 英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers 英语

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers 英语

P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers 韩语

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成 英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers 英语

B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers 韩语

K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98