Sage V1.1.0
模型概述
該模型通過將文本中的所有單詞規範為俄語標準形式,糾正拼寫、標點錯誤和打字錯誤。適用於俄語文本的自動校對和規範化處理。
模型特點
多維度糾錯
同時處理拼寫、標點和大小寫錯誤,實現全面文本規範化
高性能
在RUSpellRU數據集上達到88.2的拼寫F1值,優於GPT系列模型
領域適應性強
在醫療、技術等多個專業領域表現良好
模型能力
俄語拼寫糾錯
標點符號修正
大小寫規範化
打字錯誤糾正
使用案例
內容創作
博客文章校對
自動修正社交媒體和博客文章中的拼寫和語法錯誤
在LiveJournal數據上達到88.2 F1值
專業文檔處理
醫療文書校對
修正醫療病歷中的專業術語拼寫錯誤
在MedSpellChecker數據集上達到72.4 F1值
技術文檔
代碼註釋糾錯
修正GitHub代碼提交中的拼寫錯誤
在GitHubTypoCorpusRu數據集上達到62.7 F1值
🚀 sage-v1.1.0
sage-v1.1.0 模型可將文本中的所有單詞規範為俄語標準形式,從而糾正拼寫、標點錯誤和打字錯誤。該模型基於 FRED-T5-1.7B 模型訓練而來,具有較高的準確性和實用性。
🚀 快速開始
本模型可有效糾正俄語文本中的拼寫和標點錯誤,將文本中的所有單詞規範為俄語標準形式。模型基於 FRED-T5-1.7B 進行訓練,使用了包含“人工”錯誤的大型數據集,該數據集基於俄語維基百科和俄語視頻轉錄本構建,並使用 SAGE 庫自動引入了拼寫錯誤和打字錯誤。
代碼示例
import re
import torch
from transformers import AutoTokenizer, T5ForConditionalGeneration
tokenizer = AutoTokenizer.from_pretrained("ai-forever/FRED-T5-1.7B")
model = T5ForConditionalGeneration.from_pretrained("ai-forever/sage-v1.1.0")
model.to('cuda')
tokenizer_config = {
'max_length': None,
'padding': 'longest',
'truncation': False,
"return_tensors": "pt",
}
def inference(sentence):
text = "<LM>" + sentence
with torch.inference_mode():
encodings = tokenizer(text, **tokenizer_config)
for k, v in encodings.items():
encodings[k] = v.to('cuda:0')
res = model.generate(
**encodings,
use_cache=True,
max_length = encodings['input_ids'].size(1) * 1.5
)
res = res.cpu().tolist()
res = tokenizer.batch_decode(res, skip_special_tokens=True)
return res
text = 'Првет какдила'
text = re.sub(r'\n+', '\n', text)
print(inference(text))
# ['Привет, как дела?']
✨ 主要特性
- 拼寫和標點糾錯:能夠準確識別並糾正俄語文本中的拼寫和標點錯誤。
- 基於大型模型訓練:以 FRED-T5-1.7B 為基礎,保證了模型的性能和準確性。
- 使用廣泛數據集:訓練數據來自俄語維基百科和視頻轉錄本,涵蓋了豐富的語言場景。
💻 使用示例
基礎用法
以下是使用模型進行文本糾錯的基本示例:
import re
import torch
from transformers import AutoTokenizer, T5ForConditionalGeneration
tokenizer = AutoTokenizer.from_pretrained("ai-forever/FRED-T5-1.7B")
model = T5ForConditionalGeneration.from_pretrained("ai-forever/sage-v1.1.0")
model.to('cuda')
tokenizer_config = {
'max_length': None,
'padding': 'longest',
'truncation': False,
"return_tensors": "pt",
}
def inference(sentence):
text = "<LM>" + sentence
with torch.inference_mode():
encodings = tokenizer(text, **tokenizer_config)
for k, v in encodings.items():
encodings[k] = v.to('cuda:0')
res = model.generate(
**encodings,
use_cache=True,
max_length = encodings['input_ids'].size(1) * 1.5
)
res = res.cpu().tolist()
res = tokenizer.batch_decode(res, skip_special_tokens=True)
return res
text = 'Првет какдила'
text = re.sub(r'\n+', '\n', text)
print(inference(text))
# ['Привет, как дела?']
📚 詳細文檔
公開引用
- SAGE 庫公告,DataFest 2023
- 關於合成錯誤生成方法的論文,Dialogue 2023
- SAGE EACL 2024 論文
示例
輸入 | 輸出 |
---|---|
И не чсно прохожим в этот день непогожйи почему я веселый такйо | И не ясно прохожим в этот день непогожий, почему я веселый такой. |
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай | Каждый день вот так делай и спина болеть не будет. А вот так каждый день не делай. |
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий сокращение временных показателей реагирования. | Основная цель мероприятия — практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования |
指標
質量
以下是用於確定拼寫檢查器正確性的自動指標。我們在四個可用數據集上,將本解決方案與開源自動拼寫檢查器以及 ChatGPT 系列模型進行了比較:
- RUSpellRU:從 LiveJournal 收集的文本,其中的拼寫錯誤和打字錯誤已手動糾正。
- MultidomainGold:來自 7 個文本來源的示例,包括開放網絡、新聞、社交媒體、評論、字幕、政策文件和文學作品。
- MedSpellChecker:包含醫療病歷中錯誤的文本。
- GitHubTypoCorpusRu:來自 GitHub 提交記錄中的拼寫錯誤和打字錯誤。
RUSpellRU
模型 | 拼寫準確率 | 拼寫召回率 | 拼寫 F1 值 | 標點準確率 | 標點召回率 | 標點 F1 值 | 大小寫準確率 | 大小寫召回率 | 大小寫 F1 值 |
---|---|---|---|---|---|---|---|---|---|
sage-v1.1.0 | 90.3 | 86.3 | 88.2 | 90.3 | 86.6 | 88.4 | 95.2 | 95.9 | 95.6 |
sage-fredt5-large | 57.3 | 68.0 | 62.2 | 86.7 | 46.1 | 60.2 | 92.1 | 67.8 | 78.1 |
sage-fredt5-large (ft) | 88.4 | 80.9 | 84.5 | 88.2 | 85.3 | 86.8 | 95.5 | 94.0 | 94.7 |
gpt-3.5-turbo | 33.6 | 58.5 | 42.7 | 85.9 | 64.6 | 73.7 | 84.9 | 73.9 | 79.0 |
gpt-4 | 54.9 | 76.7 | 64.0 | 84.0 | 82.3 | 83.2 | 91.5 | 90.2 | 90.9 |
MultidomainGold
模型 | 拼寫準確率 | 拼寫召回率 | 拼寫 F1 值 | 標點準確率 | 標點召回率 | 標點 F1 值 | 大小寫準確率 | 大小寫召回率 | 大小寫 F1 值 |
---|---|---|---|---|---|---|---|---|---|
sage-v1.1.0 | 81.6 | 77.7 | 79.6 | 70.2 | 67.5 | 68.8 | 80.5 | 80.5 | 80.5 |
sage-fredt5-large | 43.4 | 49.7 | 46.3 | 21.8 | 21.3 | 21.6 | 58.8 | 23.9 | 34.0 |
sage-fredt5-large (ft) | 80.3 | 75.1 | 77.6 | 69.0 | 66.5 | 67.7 | 78.6 | 80.0 | 79.3 |
gpt-3.5-turbo | 18.8 | 48.1 | 27.1 | 42.0 | 31.8 | 36.2 | 47.1 | 51.3 | 49.1 |
gpt-4 | 25.4 | 68.0 | 37.0 | 57.8 | 54.3 | 56.0 | 54.0 | 67.5 | 60.0 |
MedSpellChecker
模型 | 拼寫準確率 | 拼寫召回率 | 拼寫 F1 值 | 標點準確率 | 標點召回率 | 標點 F1 值 | 大小寫準確率 | 大小寫召回率 | 大小寫 F1 值 |
---|---|---|---|---|---|---|---|---|---|
sage-v1.1.0 | 71.3 | 73.5 | 72.4 | 75.1 | 69.2 | 72.0 | 80.9 | 72.8 | 76.6 |
sage-fredt5-large | 35.2 | 54.5 | 42.8 | 19.2 | 13.2 | 15.7 | 48.7 | 36.8 | 41.9 |
sage-fredt5-large (ft) | 72.5 | 72.2 | 72.3 | 74.6 | 66.4 | 70.3 | 79.3 | 85.1 | 82.1 |
gpt-3.5-turbo | 14.7 | 45.9 | 22.3 | 69.9 | 52.3 | 59.8 | 26.4 | 41.8 | 32.3 |
gpt-4 | 37.8 | 72.3 | 49.6 | 81.4 | 64.3 | 71.9 | 73.0 | 62.1 | 67.1 |
GitHubTypoCorpusRu
模型 | 拼寫準確率 | 拼寫召回率 | 拼寫 F1 值 | 標點準確率 | 標點召回率 | 標點 F1 值 | 大小寫準確率 | 大小寫召回率 | 大小寫 F1 值 |
---|---|---|---|---|---|---|---|---|---|
sage-v1.1.0 | 70.8 | 56.3 | 62.7 | 48.9 | 35.8 | 41.4 | 32.9 | 45.3 | 38.1 |
sage-fredt5-large | 46.0 | 46.6 | 46.3 | 22.7 | 18.3 | 20.2 | 12.0 | 13.2 | 12.6 |
sage-fredt5-large (ft) | 67.5 | 53.2 | 59.5 | 48.5 | 38.0 | 42.6 | 37.3 | 50.0 | 42.7 |
gpt-3.5-turbo | 23.7 | 38.7 | 29.4 | 37.6 | 23.3 | 28.7 | 19.6 | 35.9 | 25.3 |
gpt-4 | 27.0 | 52.8 | 35.7 | 45.9 | 32.6 | 38.2 | 25.7 | 36.8 | 30.2 |
🔧 技術細節
資源
- SAGE 庫,GitHub
- sage-fredt5-large,HuggingFace
- sage-fredt5-distilled-95m,HuggingFace
- sage-m2m100-1.2B,HuggingFace
- sage-mt5-large,HuggingFace
規格
屬性 | 詳情 |
---|---|
文件大小 | 7 Gb |
框架 | pytorch |
版本 | v1.1.0 |
開發者 | SberDevices, AGI NLP |
📄 許可證
本項目採用 MIT 許可證。
📞 聯繫方式
如有任何問題或建議,可通過以下郵箱聯繫我們:nikita.martynov.98@list.ru
Bart Large Cnn
MIT
基於英語語料預訓練的BART模型,專門針對CNN每日郵報數據集進行微調,適用於文本摘要任務
文本生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一個基於T5的釋義框架,專為加速訓練自然語言理解(NLU)模型而設計,通過生成高質量釋義實現數據增強。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸餾版本,專門針對文本摘要任務進行了優化,在保持較高性能的同時顯著提升了推理速度。
文本生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基於T5架構的模型,專門用於從摘要文本中提取原子聲明,是摘要事實性評估流程的關鍵組件。
文本生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一個統一的多維評估器,用於自然語言生成任務的自動評估,支持多個可解釋維度的評估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基於PEGASUS架構微調的文本複述模型,能夠生成語義相同但表達不同的句子。
文本生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
這是一個基於T5架構的韓語文本摘要模型,專為韓語文本摘要任務設計,通過微調paust/pko-t5-base模型在多個韓語數據集上訓練而成。
文本生成
Transformers 韓語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一種基於Transformer的預訓練模型,專門用於抽象文本摘要任務。
文本生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基於BART-large架構的對話摘要模型,專為SAMSum語料庫微調,適用於生成對話摘要。
文本生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
基於KoBART架構的韓語文本摘要模型,能夠生成韓語新聞文章的簡潔摘要。
文本生成
Transformers 韓語

K
gogamza
119.18k
12
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98