🚀 sage-mt5-large
sage-mt5-large模型能夠對俄語和英語文本進行拼寫錯誤和打字錯誤的糾正,將文本中的所有單詞規範為正確的語言表達形式,為多語言文本處理提供了有效的解決方案。
🚀 快速開始
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-mt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-mt5-large", device_map='cuda')
sentence = "Перведи мне текст на аглиском: \"Screw you kuys, I am goin hme (c)."
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
✨ 主要特性
- 該模型能夠糾正俄語和英語中的拼寫錯誤和打字錯誤,將文本中的所有單詞規範為語言標準形式。
- 基於 mT5-large 架構進行訓練。
- 使用了包含“人為”錯誤的廣泛數據集作為訓練語料庫,該語料庫基於俄語維基百科和俄語視頻的文字記錄構建,並使用 SAGE 庫自動引入拼寫錯誤和打字錯誤。
📚 詳細文檔
公開引用
示例
輸入 |
輸出 |
Перведи мне текст на аглиском: "Screw you kuys, I am goin hme (c). |
Переведи мне текст на английском: "Screw you guys, I am going home" (c). |
И не чсно прохожим в этот день непогожйи почему я веселый такйо |
И мне ясно прохожим в этот день непогожий, почему я веселый такой |
If you bought something goregous, you well be very happy. |
If you bought something gorgeous, you will be very happy. |
指標
質量
以下是用於確定拼寫檢查器正確性的自動指標。我們在所有六個可用數據集上,將我們的解決方案與開放的自動拼寫檢查器和ChatGPT系列模型進行了比較:
- RUSpellRU:從 (LiveJournal) 收集的文本,其中的拼寫錯誤和打字錯誤已手動糾正。
- MultidomainGold:來自7個文本來源的示例,包括開放網絡、新聞、社交媒體、評論、字幕、政策文件和文學作品。
- MedSpellChecker:來自醫學病歷的錯誤文本。
- GitHubTypoCorpusRu:來自 GitHub 提交中的拼寫錯誤和打字錯誤。
- BEA60K:從多個領域收集的英語拼寫錯誤。
- JFLEG:1601個英語句子,其中包含約2000個拼寫錯誤。
RUSpellRU、MultidomainGold、MedSpellChecker和GitHubTypoCorpusRu是用於俄語拼寫檢查的數據集,而BEA60K和JFLEG是用於英語的數據集。
RUSpellRU
模型 |
精確率 |
召回率 |
F1值 |
sage-mt5-large |
55.7 |
68.5 |
61.4 |
sage-mt5-large (ft.) |
88.4 |
71.6 |
79.1 |
sage-ai-service |
93.5 |
82.4 |
87.6 |
gpt-3.5-turbo |
39.6 |
62.3 |
48.5 |
gpt-4 |
69.5 |
81.0 |
74.8 |
MultidomainGold
模型 |
精確率 |
召回率 |
F1值 |
sage-mt5-large |
35.4 |
57.9 |
43.9 |
sage-mt5-large (ft.) |
65.3 |
62.7 |
63.9 |
sage-ai-service |
70.9 |
68.8 |
69.9 |
gpt-3.5-turbo |
17.8 |
56.1 |
27.0 |
gpt-4 |
31.1 |
78.1 |
44.5 |
MedSpellChecker
模型 |
精確率 |
召回率 |
F1值 |
sage-mt5-large |
35.1 |
70.8 |
47.0 |
sage-mt5-large (ft.) |
77.7 |
77.5 |
77.6 |
sage-ai-service |
73.4 |
76.2 |
74.9 |
gpt-3.5-turbo |
15.1 |
53.6 |
23.5 |
gpt-4 |
48.9 |
88.7 |
63.1 |
GitHubTypoCorpusRu
模型 |
精確率 |
召回率 |
F1值 |
sage-mt5-large |
47.4 |
53.8 |
50.4 |
sage-mt5-large (ft.) |
69.5 |
46.0 |
55.3 |
sage-ai-service |
76.1 |
51.2 |
61.2 |
gpt-3.5-turbo |
23.7 |
43.9 |
30.8 |
gpt-4 |
34.7 |
60.5 |
44.1 |
BEA60K
模型 |
精確率 |
召回率 |
F1值 |
sage-mt5-large |
64.7 |
83.8 |
73.0 |
gpt-3.5-turbo |
66.9 |
84.1 |
74.5 |
gpt-4 |
68.6 |
85.2 |
76.0 |
Bert (https://github.com/neuspell/neuspell) |
65.8 |
79.6 |
72.0 |
SC-LSTM (https://github.com/neuspell/neuspell) |
62.2 |
80.3 |
72.0 |
JFLEG
模型 |
精確率 |
召回率 |
F1值 |
sage-mt5-large |
74.9 |
88.4 |
81.1 |
gpt-3.5-turbo |
77.8 |
88.6 |
82.9 |
gpt-4 |
77.9 |
88.3 |
82.8 |
Bert (https://github.com/neuspell/neuspell) |
78.5 |
85.4 |
81.8 |
SC-LSTM (https://github.com/neuspell/neuspell) |
80.6 |
86.1 |
83.2 |
侷限性
資源
規格
屬性 |
詳情 |
文件大小 |
5 Gb |
框架 |
pytorch |
版本 |
v1.0 |
開發者 |
SberDevices, AGI NLP |
聯繫方式
nikita.martynov.98@list.ru
📄 許可證
我們的解決方案基於 mT5-large 模型構建,該模型及其源代碼遵循Apache-2.0許可證。我們的解決方案遵循MIT許可證。