Sage Fredt5 Large
模型概述
該模型通過將文本中的所有單詞規範為俄語標準,糾正拼寫、標點錯誤和打字錯誤。基於FRED-T5-large架構訓練,訓練數據包含人工生成的錯誤樣本。
模型特點
多錯誤類型糾正
可同時處理拼寫錯誤、標點錯誤和大小寫錯誤
基於合成數據訓練
使用SAGE庫自動生成訓練數據中的錯誤樣本
多領域適應
在多個領域的測試集上表現良好,包括社交媒體、醫療和技術文本
模型能力
俄語拼寫糾正
標點符號規範化
大小寫修正
打字錯誤糾正
使用案例
文本處理
社交媒體文本規範化
糾正社交媒體中的非正式拼寫和打字錯誤
在RUSpellRU數據集上F1值達62.2
醫療文本標準化
修正醫療記錄中的拼寫和專業術語錯誤
在MedSpellchecker數據集上F1值達42.7
內容審核
用戶生成內容檢查
自動檢測並修正用戶提交內容中的語言錯誤
在MultidomainGold數據集上F1值達46.3
🚀 sage-fredt5-large
sage-fredt5-large 模型能夠將文本中的所有單詞規範為俄語標準形式,從而糾正拼寫、標點錯誤和打字錯誤。該模型基於 FRED - T5 - large 模型訓練,在俄語拼寫檢查任務中表現出色。
🚀 快速開始
你可以按照以下代碼示例使用該模型:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-large", device_map='cuda')
sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]
✨ 主要特性
- 該模型基於 [FRED - T5 - large](https://huggingface.co/ai - forever/FRED - T5 - large) 模型進行訓練,能夠有效糾正俄語中的拼寫和標點錯誤。
- 使用了基於俄語維基百科和俄語視頻轉錄本構建的大規模“人工”錯誤數據集進行訓練。
💻 使用示例
基礎用法
以下是模型輸入輸出的示例:
輸入 | 輸出 |
---|---|
И не чсно прохожим в этот день непогожйи почему я веселый такйо | И не ясно прохожим в этот день непогожий, почему я веселый такой. |
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай | Каждый день вот так делай и спина болеть не будет. А вот так каждый день не делай. |
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно - спасательных работ по ликвидации последствий дорожно - транспортных проишествий сокращение временных показателей реагирования. | Основная цель мероприятия — практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно - спасательных работ по ликвидации последствий дорожно - транспортных происшествий, сокращение временных показателей реагирования |
📚 詳細文檔
公開引用
- SAGE 庫公告,DataFest 2023
- [關於合成錯誤生成方法的論文](https://www.dialog - 21.ru/media/5914/martynovnplusetal056.pdf),Dialogue 2023
- [SAGE EACL 2024 論文](https://aclanthology.org/2024.findings - eacl.10/)
指標
質量
以下是用於確定拼寫檢查器正確性的自動指標。我們在四個可用數據集上,將我們的解決方案與開源自動拼寫檢查器以及 ChatGPT 系列模型進行了比較:
- RUSpellRU:從 (LiveJournal) 收集的文本,其中的拼寫錯誤和打字錯誤已手動糾正。
- MultidomainGold:來自 7 個文本來源的示例,包括開放網絡、新聞、社交媒體、評論、字幕、政策文件和文學作品。
- MedSpellChecker:包含醫療病歷中錯誤的文本。
- GitHubTypoCorpusRu:來自 GitHub 提交中的拼寫錯誤和打字錯誤。
RUSpellRU 數據集指標
模型 | 拼寫準確率 (Pr. (spell)) | 拼寫召回率 (Rec. (spell)) | 拼寫 F1 值 (F1 (spell)) | 標點準確率 (Pr. (punc)) | 標點召回率 (Rec. (punc)) | 標點 F1 值 (F1 (punc)) | 大小寫準確率 (Pr. (case)) | 大小寫召回率 (Rec. (case)) | 大小寫 F1 值 (F1 (case)) |
---|---|---|---|---|---|---|---|---|---|
sage - fredt5 - large | 57.3 | 68.0 | 62.2 | 86.7 | 46.1 | 60.2 | 92.1 | 67.8 | 78.1 |
sage - fredt5 - large (ft) | 88.4 | 80.9 | 84.5 | 88.2 | 85.3 | 86.8 | 95.5 | 94.0 | 94.7 |
sage - ai - service | 90.3 | 86.3 | 88.2 | 90.3 | 86.6 | 88.4 | 95.2 | 95.9 | 95.6 |
gpt - 3.5 - turbo | 33.6 | 58.5 | 42.7 | 85.9 | 64.6 | 73.7 | 84.9 | 73.9 | 79.0 |
gpt - 4 | 54.9 | 76.7 | 64.0 | 84.0 | 82.3 | 83.2 | 91.5 | 90.2 | 90.9 |
MultidomainGold 數據集指標
模型 | 拼寫準確率 (Pr. (spell)) | 拼寫召回率 (Rec. (spell)) | 拼寫 F1 值 (F1 (spell)) | 標點準確率 (Pr. (punc)) | 標點召回率 (Rec. (punc)) | 標點 F1 值 (F1 (punc)) | 大小寫準確率 (Pr. (case)) | 大小寫召回率 (Rec. (case)) | 大小寫 F1 值 (F1 (case)) |
---|---|---|---|---|---|---|---|---|---|
sage - fredt5 - large | 43.4 | 49.7 | 46.3 | 21.8 | 21.3 | 21.6 | 58.8 | 23.9 | 34.0 |
sage - fredt5 - large (ft) | 80.3 | 75.1 | 77.6 | 69.0 | 66.5 | 67.7 | 78.6 | 80.0 | 79.3 |
sage - ai - service | 81.6 | 77.7 | 79.6 | 70.2 | 67.5 | 68.8 | 80.5 | 80.5 | 80.5 |
gpt - 3.5 - turbo | 18.8 | 48.1 | 27.1 | 42.0 | 31.8 | 36.2 | 47.1 | 51.3 | 49.1 |
gpt - 4 | 25.4 | 68.0 | 37.0 | 57.8 | 54.3 | 56.0 | 54.0 | 67.5 | 60.0 |
MedSpellChecker 數據集指標
模型 | 拼寫準確率 (Pr. (spell)) | 拼寫召回率 (Rec. (spell)) | 拼寫 F1 值 (F1 (spell)) | 標點準確率 (Pr. (punc)) | 標點召回率 (Rec. (punc)) | 標點 F1 值 (F1 (punc)) | 大小寫準確率 (Pr. (case)) | 大小寫召回率 (Rec. (case)) | 大小寫 F1 值 (F1 (case)) |
---|---|---|---|---|---|---|---|---|---|
sage - fredt5 - large | 35.2 | 54.5 | 42.8 | 19.2 | 13.2 | 15.7 | 48.7 | 36.8 | 41.9 |
sage - fredt5 - large (ft) | 72.5 | 72.2 | 72.3 | 74.6 | 66.4 | 70.3 | 79.3 | 85.1 | 82.1 |
sage - ai - service | 71.3 | 73.5 | 72.4 | 75.1 | 69.2 | 72.0 | 80.9 | 72.8 | 76.6 |
gpt - 3.5 - turbo | 14.7 | 45.9 | 22.3 | 69.9 | 52.3 | 59.8 | 26.4 | 41.8 | 32.3 |
gpt - 4 | 37.8 | 72.3 | 49.6 | 81.4 | 64.3 | 71.9 | 73.0 | 62.1 | 67.1 |
GitHubTypoCorpusRu 數據集指標
模型 | 拼寫準確率 (Pr. (spell)) | 拼寫召回率 (Rec. (spell)) | 拼寫 F1 值 (F1 (spell)) | 標點準確率 (Pr. (punc)) | 標點召回率 (Rec. (punc)) | 標點 F1 值 (F1 (punc)) | 大小寫準確率 (Pr. (case)) | 大小寫召回率 (Rec. (case)) | 大小寫 F1 值 (F1 (case)) |
---|---|---|---|---|---|---|---|---|---|
sage - fredt5 - large | 46.0 | 46.6 | 46.3 | 22.7 | 18.3 | 20.2 | 12.0 | 13.2 | 12.6 |
sage - fredt5 - large (ft) | 67.5 | 53.2 | 59.5 | 48.5 | 38.0 | 42.6 | 37.3 | 50.0 | 42.7 |
sage - ai - service | 70.8 | 56.3 | 62.7 | 48.9 | 35.8 | 41.4 | 32.9 | 45.3 | 38.1 |
gpt - 3.5 - turbo | 23.7 | 38.7 | 29.4 | 37.6 | 23.3 | 28.7 | 19.6 | 35.9 | 25.3 |
gpt - 4 | 27.0 | 52.8 | 35.7 | 45.9 | 32.6 | 38.2 | 25.7 | 36.8 | 30.2 |
🔧 技術細節
侷限性
- 為了獲得更好的性能,建議在具有自然錯誤的數據集上對模型進行微調。當前實現的模型是預訓練模型,其預訓練任務在語料庫中噪聲的密度和來源方面與常規拼寫檢查有所不同。
- 複雜的格式可能會在輸出生成過程中帶來一些問題。
資源
- [SAGE 庫](https://github.com/ai - forever/sage),GitHub
- [sage - fredt5 - large](https://huggingface.co/ai - forever/sage - fredt5 - large),HuggingFace
- [sage - fredt5 - distilled - 95m](https://huggingface.co/ai - forever/sage - fredt5 - distilled - 95m),HuggingFace
- [sage - m2m100 - 1.2B](https://huggingface.co/ai - forever/sage - m2m100 - 1.2B),HuggingFace
- [sage - mt5 - large](https://huggingface.co/ai - forever/sage - mt5 - large),HuggingFace
規格
屬性 | 詳情 |
---|---|
模型類型 | 基於 FRED - T5 - large 的拼寫檢查模型 |
訓練數據 | 基於俄語維基百科和俄語視頻轉錄本構建的“人工”錯誤數據集 |
文件大小 | 3.3 Gb |
框架 | pytorch |
版本 | v1.0 |
開發者 | SberDevices, AGI NLP |
聯繫方式
nikita.martynov.98@list.ru
📄 許可證
基於 [FRED - T5 - large](https://huggingface.co/ai - forever/FRED - T5 - large) 模型開發的本解決方案及其源代碼均遵循 MIT 許可證。
Bart Large Cnn
MIT
基於英語語料預訓練的BART模型,專門針對CNN每日郵報數據集進行微調,適用於文本摘要任務
文本生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一個基於T5的釋義框架,專為加速訓練自然語言理解(NLU)模型而設計,通過生成高質量釋義實現數據增強。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸餾版本,專門針對文本摘要任務進行了優化,在保持較高性能的同時顯著提升了推理速度。
文本生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基於T5架構的模型,專門用於從摘要文本中提取原子聲明,是摘要事實性評估流程的關鍵組件。
文本生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一個統一的多維評估器,用於自然語言生成任務的自動評估,支持多個可解釋維度的評估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基於PEGASUS架構微調的文本複述模型,能夠生成語義相同但表達不同的句子。
文本生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
這是一個基於T5架構的韓語文本摘要模型,專為韓語文本摘要任務設計,通過微調paust/pko-t5-base模型在多個韓語數據集上訓練而成。
文本生成
Transformers 韓語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一種基於Transformer的預訓練模型,專門用於抽象文本摘要任務。
文本生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基於BART-large架構的對話摘要模型,專為SAMSum語料庫微調,適用於生成對話摘要。
文本生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
基於KoBART架構的韓語文本摘要模型,能夠生成韓語新聞文章的簡潔摘要。
文本生成
Transformers 韓語

K
gogamza
119.18k
12
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98