sage-mt5-large開源拼寫檢查模型 - 免費糾正俄語和英語拼寫、打字錯誤

首頁

Sage Mt5 Large

由ai-forever開發

基於mT5-large架構的俄語和英語拼寫檢查模型，通過規範化單詞糾正拼寫錯誤和打字錯誤。

大型語言模型

Transformers

支持多種語言開源協議:MIT #俄英拼寫糾錯 #多領域適應 #高召回率

下載量 51

發布時間 : 3/11/2024

模型概述

該模型用於糾正俄語和英語中的拼寫錯誤和打字錯誤，將文本中的所有單詞規範化為語言標準。基於mT5-large架構訓練，訓練語料庫包含人工引入錯誤的廣泛數據集。

模型特點

多語言支持

支持俄語和英語的拼寫檢查和文本規範化。

基於mT5-large架構

利用強大的mT5-large架構進行文本生成任務。

合成錯誤訓練

訓練數據包含人工引入的拼寫錯誤和打字錯誤，提高模型魯棒性。

廣泛數據集評估

在多個俄語和英語拼寫檢查基準數據集上進行了全面評估。

模型能力

俄語拼寫檢查

英語拼寫檢查

文本規範化

打字錯誤糾正

使用案例

文本處理

社交媒體文本糾正

自動糾正社交媒體帖子中的拼寫錯誤和打字錯誤。

在RUSpellRU數據集上達到61.4的F1值

醫療文本規範化

糾正醫療病史中的專業術語拼寫錯誤。

在MedSpellchecker數據集上達到47.0的F1值

代碼註釋糾錯

糾正GitHub代碼提交中的拼寫錯誤。

在GitHubTypoCorpusRu數據集上達到50.4的F1值

多領域應用

多領域文本糾正

處理來自新聞、社交媒體、文學作品等多個領域的文本錯誤。

在MultidomainGold數據集上達到43.9的F1值

🚀 sage-mt5-large

sage-mt5-large模型能夠對俄語和英語文本進行拼寫錯誤和打字錯誤的糾正，將文本中的所有單詞規範為正確的語言表達形式，為多語言文本處理提供了有效的解決方案。

🚀 快速開始

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-mt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-mt5-large", device_map='cuda')

sentence = "Перведи мне текст на аглиском: \"Screw you kuys, I am goin hme (c)."
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["Переведи мне текст на английском: \"Screw you guys, I am going home\" (c)."]

✨ 主要特性

該模型能夠糾正俄語和英語中的拼寫錯誤和打字錯誤，將文本中的所有單詞規範為語言標準形式。
基於 mT5-large 架構進行訓練。
使用了包含“人為”錯誤的廣泛數據集作為訓練語料庫，該語料庫基於俄語維基百科和俄語視頻的文字記錄構建，並使用 SAGE 庫自動引入拼寫錯誤和打字錯誤。

📚 詳細文檔

公開引用

示例

輸入	輸出
Перведи мне текст на аглиском: "Screw you kuys, I am goin hme (c).	Переведи мне текст на английском: "Screw you guys, I am going home" (c).
И не чсно прохожим в этот день непогожйи почему я веселый такйо	И мне ясно прохожим в этот день непогожий, почему я веселый такой
If you bought something goregous, you well be very happy.	If you bought something gorgeous, you will be very happy.

指標

質量

以下是用於確定拼寫檢查器正確性的自動指標。我們在所有六個可用數據集上，將我們的解決方案與開放的自動拼寫檢查器和ChatGPT系列模型進行了比較：

RUSpellRU：從 (LiveJournal) 收集的文本，其中的拼寫錯誤和打字錯誤已手動糾正。
MultidomainGold：來自7個文本來源的示例，包括開放網絡、新聞、社交媒體、評論、字幕、政策文件和文學作品。
MedSpellChecker：來自醫學病歷的錯誤文本。
GitHubTypoCorpusRu：來自 GitHub 提交中的拼寫錯誤和打字錯誤。
BEA60K：從多個領域收集的英語拼寫錯誤。
JFLEG：1601個英語句子，其中包含約2000個拼寫錯誤。

RUSpellRU、MultidomainGold、MedSpellChecker和GitHubTypoCorpusRu是用於俄語拼寫檢查的數據集，而BEA60K和JFLEG是用於英語的數據集。

RUSpellRU

模型	精確率	召回率	F1值
sage-mt5-large	55.7	68.5	61.4
sage-mt5-large (ft.)	88.4	71.6	79.1
sage-ai-service	93.5	82.4	87.6
gpt-3.5-turbo	39.6	62.3	48.5
gpt-4	69.5	81.0	74.8

MultidomainGold

模型	精確率	召回率	F1值
sage-mt5-large	35.4	57.9	43.9
sage-mt5-large (ft.)	65.3	62.7	63.9
sage-ai-service	70.9	68.8	69.9
gpt-3.5-turbo	17.8	56.1	27.0
gpt-4	31.1	78.1	44.5

MedSpellChecker

模型	精確率	召回率	F1值
sage-mt5-large	35.1	70.8	47.0
sage-mt5-large (ft.)	77.7	77.5	77.6
sage-ai-service	73.4	76.2	74.9
gpt-3.5-turbo	15.1	53.6	23.5
gpt-4	48.9	88.7	63.1

GitHubTypoCorpusRu

模型	精確率	召回率	F1值
sage-mt5-large	47.4	53.8	50.4
sage-mt5-large (ft.)	69.5	46.0	55.3
sage-ai-service	76.1	51.2	61.2
gpt-3.5-turbo	23.7	43.9	30.8
gpt-4	34.7	60.5	44.1

BEA60K

模型	精確率	召回率	F1值
sage-mt5-large	64.7	83.8	73.0
gpt-3.5-turbo	66.9	84.1	74.5
gpt-4	68.6	85.2	76.0
Bert (https://github.com/neuspell/neuspell)	65.8	79.6	72.0
SC-LSTM (https://github.com/neuspell/neuspell)	62.2	80.3	72.0

JFLEG

模型	精確率	召回率	F1值
sage-mt5-large	74.9	88.4	81.1
gpt-3.5-turbo	77.8	88.6	82.9
gpt-4	77.9	88.3	82.8
Bert (https://github.com/neuspell/neuspell)	78.5	85.4	81.8
SC-LSTM (https://github.com/neuspell/neuspell)	80.6	86.1	83.2