Sage Fredt5 Distilled 95m
模型概述
該模型通過將文本中的所有單詞規範化為俄語標準形式,糾正拼寫、標點錯誤及打字錯誤。訓練採用了包含人工錯誤的廣泛數據集,適用於多種文本糾錯場景。
模型特點
多錯誤類型校正
同時處理拼寫錯誤、標點錯誤和大小寫錯誤
合成數據訓練
使用SAGE庫自動生成訓練數據中的錯誤,覆蓋廣泛錯誤類型
領域適應性
在通用文本和特定領域(如醫學)都表現良好
模型能力
俄語拼寫校正
標點符號修正
大小寫規範化
打字錯誤糾正
使用案例
文本處理
社交媒體文本校正
修正用戶生成內容中的拼寫和語法錯誤
在LiveJournal數據集上F1達到78.9
專業文檔校對
自動檢查醫學文檔等專業文本
在醫學數據集上F1達到64.9
內容生產
自動字幕校正
修正視頻轉錄文本中的錯誤
🚀 sage-fredt5-distilled-95m
該模型能夠將文本中的所有單詞規範為俄語標準形式,從而糾正拼寫和標點錯誤以及打字錯誤。
🚀 快速開始
代碼示例
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model.to("cuda")
sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]
✨ 主要特性
- 該模型能夠將文本中的所有單詞規範為俄語標準形式,從而糾正拼寫和標點錯誤以及打字錯誤。
- 校正器是基於 FRED-T5-1.7B 架構訓練的原始模型的蒸餾版本。
- 訓練語料採用了包含 “人工” 錯誤的廣泛數據集:該語料庫基於俄語維基百科和俄語視頻的文字記錄進行組裝,然後使用 SAGE 庫自動引入拼寫錯誤和打字錯誤。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model.to("cuda")
sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]
📚 詳細文檔
公共引用
- SAGE 庫公告,DataFest 2023
- 關於合成錯誤生成方法的論文,Dialogue 2023
- SAGE EACL 2024 論文
示例
輸入 | 輸出 |
---|---|
И не чсно прохожим в этот день непогожйи почему я веселый такйо | И не ясно прохожим в этот день непогожий, почему я весёлый такой? |
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай | Каждый день вот так делай, и спена болеть не будет. А вот так каждый день — ни делай. |
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий сокращение временных показателей реагирования. | Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования. |
指標
質量
以下是用於確定拼寫檢查器正確性的自動指標。我們在所有四個可用數據集上,將我們的解決方案與開源自動拼寫檢查器和 ChatGPT 系列模型進行了比較:
- RUSpellRU:從 (LiveJournal) 收集的文本,其中的拼寫錯誤和打字錯誤已手動糾正;
- MultidomainGold:來自 7 個文本來源的示例,包括開放網絡、新聞、社交媒體、評論、字幕、政策文件和文學作品;
- MedSpellChecker:來自醫療病歷的錯誤文本;
- GitHubTypoCorpusRu:來自 GitHub 提交中的拼寫錯誤和打字錯誤。
RUSpellRU
模型 | 拼寫準確率 | 拼寫召回率 | 拼寫 F1 值 | 標點準確率 | 標點召回率 | 標點 F1 值 | 大小寫準確率 | 大小寫召回率 | 大小寫 F1 值 |
---|---|---|---|---|---|---|---|---|---|
sage-fredt5-distilled-95m | 83.5 | 74.8 | 78.9 | 86.8 | 80.6 | 83.6 | 94.4 | 92.5 | 93.5 |
sage-ai-service | 90.3 | 86.3 | 88.2 | 90.3 | 86.6 | 88.4 | 95.2 | 95.9 | 95.6 |
gpt-3.5-turbo | 33.6 | 58.5 | 42.7 | 85.9 | 64.6 | 73.7 | 84.9 | 73.9 | 79.0 |
gpt-4 | 54.9 | 76.7 | 64.0 | 84.0 | 82.3 | 83.2 | 91.5 | 90.2 | 90.9 |
MultidomainGold
模型 | 拼寫準確率 | 拼寫召回率 | 拼寫 F1 值 | 標點準確率 | 標點召回率 | 標點 F1 值 | 大小寫準確率 | 大小寫召回率 | 大小寫 F1 值 |
---|---|---|---|---|---|---|---|---|---|
sage-fredt5-distilled-95m | 77.2 | 69.9 | 73.4 | 66.8 | 63.4 | 65.0 | 76.8 | 79.1 | 77.9 |
sage-ai-service | 81.6 | 77.7 | 79.6 | 70.2 | 67.5 | 68.8 | 80.5 | 80.5 | 80.5 |
gpt-3.5-turbo | 18.8 | 48.1 | 27.1 | 42.0 | 31.8 | 36.2 | 47.1 | 51.3 | 49.1 |
gpt-4 | 25.4 | 68.0 | 37.0 | 57.8 | 54.3 | 56.0 | 54.0 | 67.5 | 60.0 |
MedSpellChecker
模型 | 拼寫準確率 | 拼寫召回率 | 拼寫 F1 值 | 標點準確率 | 標點召回率 | 標點 F1 值 | 大小寫準確率 | 大小寫召回率 | 大小寫 F1 值 |
---|---|---|---|---|---|---|---|---|---|
sage-fredt5-distilled-95m | 65.1 | 64.8 | 64.9 | 78.6 | 63.1 | 70.0 | 63.5 | 74.7 | 68.7 |
sage-ai-service | 71.3 | 73.5 | 72.4 | 75.1 | 69.2 | 72.0 | 80.9 | 72.8 | 76.6 |
gpt-3.5-turbo | 14.7 | 45.9 | 22.3 | 69.9 | 52.3 | 59.8 | 26.4 | 41.8 | 32.3 |
gpt-4 | 37.8 | 72.3 | 49.6 | 81.4 | 64.3 | 71.9 | 73.0 | 62.1 | 67.1 |
GitHubTypoCorpusRu
模型 | 拼寫準確率 | 拼寫召回率 | 拼寫 F1 值 | 標點準確率 | 標點召回率 | 標點 F1 值 | 大小寫準確率 | 大小寫召回率 | 大小寫 F1 值 |
---|---|---|---|---|---|---|---|---|---|
sage-fredt5-distilled-95m | 57.8 | 48.5 | 52.7 | 45.2 | 39.5 | 42.1 | 29.9 | 46.2 | 36.3 |
sage-ai-service | 70.8 | 56.3 | 62.7 | 48.9 | 35.8 | 41.4 | 32.9 | 45.3 | 38.1 |
gpt-3.5-turbo | 23.7 | 38.7 | 29.4 | 37.6 | 23.3 | 28.7 | 19.6 | 35.9 | 25.3 |
gpt-4 | 27.0 | 52.8 | 35.7 | 45.9 | 32.6 | 38.2 | 25.7 | 36.8 | 30.2 |
侷限性
- 複雜的格式可能會在輸出生成時帶來一些問題。
資源
- SAGE 庫,GitHub
- sage-fredt5-large,HuggingFace
- sage-fredt5-distilled-95m,HuggingFace
- sage-m2m100-1.2B,HuggingFace
- sage-mt5-large,HuggingFace
規格
屬性 | 詳情 |
---|---|
模型類型 | 基於 FRED-T5-1.7B 架構的蒸餾版本 |
訓練數據 | 基於俄語維基百科和俄語視頻文字記錄組裝的數據集,使用 SAGE 庫引入人工錯誤 |
文件大小 | 0.383 Gb |
框架 | pytorch |
版本 | v1.0 |
開發者 | SberDevices, AGI NLP |
聯繫方式
nikita.martynov.98@list.ru
📄 許可證
基於其構建我們解決方案的 FRED-T5-1.7B 模型及其源代碼遵循 MIT 許可證。我們的解決方案也採用 MIT 許可證。
Bart Large Cnn
MIT
基於英語語料預訓練的BART模型,專門針對CNN每日郵報數據集進行微調,適用於文本摘要任務
文本生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一個基於T5的釋義框架,專為加速訓練自然語言理解(NLU)模型而設計,通過生成高質量釋義實現數據增強。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸餾版本,專門針對文本摘要任務進行了優化,在保持較高性能的同時顯著提升了推理速度。
文本生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基於T5架構的模型,專門用於從摘要文本中提取原子聲明,是摘要事實性評估流程的關鍵組件。
文本生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一個統一的多維評估器,用於自然語言生成任務的自動評估,支持多個可解釋維度的評估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基於PEGASUS架構微調的文本複述模型,能夠生成語義相同但表達不同的句子。
文本生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
這是一個基於T5架構的韓語文本摘要模型,專為韓語文本摘要任務設計,通過微調paust/pko-t5-base模型在多個韓語數據集上訓練而成。
文本生成
Transformers 韓語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一種基於Transformer的預訓練模型,專門用於抽象文本摘要任務。
文本生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基於BART-large架構的對話摘要模型,專為SAMSum語料庫微調,適用於生成對話摘要。
文本生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
基於KoBART架構的韓語文本摘要模型,能夠生成韓語新聞文章的簡潔摘要。
文本生成
Transformers 韓語

K
gogamza
119.18k
12
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98