RuM2M100-1.2B開源俄語拼寫檢查模型 - 免費糾正拼寫及打字錯誤

首頁

Rum2m100 1.2B

由ai-forever開發

基於M2M100-1.2B訓練的俄語拼寫檢查模型，能糾正拼寫錯誤和打字錯誤

機器翻譯

Transformers

其他開源協議:MIT #俄語拼寫糾正 #多領域適配 #高精度語法修復

下載量 407

發布時間 : 7/26/2023

模型概述

該模型通過將文本中的所有單詞規範化為俄語標準形式來糾正拼寫錯誤和打字錯誤，基於包含人工錯誤的廣泛數據集訓練

模型特點

高質量拼寫糾正

在多個測試數據集上表現優於ChatGPT系列模型和開源拼寫檢查器

多領域適用

在普通文本、醫學文本、技術文本等多種領域都有良好表現

基於合成錯誤訓練

使用SAGE庫自動生成訓練數據中的錯誤，覆蓋廣泛的錯誤類型

模型能力

俄語拼寫檢查

打字錯誤糾正

文本規範化

使用案例

文本處理

社交媒體文本糾正

糾正社交媒體中的拼寫錯誤和打字錯誤

在RUSpellRU數據集上F1分數50.1

醫學文本處理

糾正醫學病史中的專業術語拼寫錯誤

在MedSpellChecker數據集上F1分數60.6

技術文檔處理

糾正技術文檔和代碼註釋中的拼寫錯誤

在GitHubTypoCorpusRu數據集上F1分數43.5

🚀 RuM2M100-1.2B模型

RuM2M100-1.2B模型能夠將文本中的所有單詞規範為俄語標準形式，從而糾正拼寫錯誤和打字錯誤。該模型基於M2M100-1.2B模型進行訓練。

✨ 主要特性

該模型能夠有效糾正俄語中的拼寫錯誤和打字錯誤，將文本中的所有單詞規範為俄語標準形式。
基於M2M100-1.2B模型進行訓練，利用了大規模的“人工”錯誤數據集。
訓練語料庫基於俄語維基百科和俄語視頻轉錄本構建，並使用SAGE庫自動引入了拼寫錯誤和打字錯誤。

📦 安裝指南

文檔未提及安裝步驟，此部分跳過。

💻 使用示例

基礎用法

from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer

path_to_model = "ai-forever/RuM2M100-1.2B"

model = M2M100ForConditionalGeneration.from_pretrained(path_to_model)
tokenizer = M2M100Tokenizer.from_pretrained(path_to_model, src_lang="ru", tgt_lang="ru")

sentence = "прийдя в МГТУ я был удивлен никого необноружив там…"

encodings = tokenizer(sentence, return_tensors="pt")
generated_tokens = model.generate(
        **encodings, forced_bos_token_id=tokenizer.get_lang_id("ru"))
answer = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(answer)

#["прийдя в МГТУ я был удивлен никого не обнаружив там..."]

📚 詳細文檔

模型概述

該拼寫糾正器基於M2M100-1.2B模型進行訓練。訓練語料庫採用了一個包含“人工”錯誤的廣泛數據集，該數據集基於俄語維基百科和俄語視頻的轉錄本構建，然後使用SAGE庫自動引入了拼寫錯誤和打字錯誤。

公共參考資料

示例

輸入	輸出
Думю ешцъа лет череа 10 ретроспективно просматривотьэ то будкетцц мне невероя тна ин те р но	Думаю что лет через 10 ретроспективно просматривать это будет мне невероятно интересно
Основая цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий, сокращение временных показателей реагирования.	Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования.
прийдя в МГТУ я был удивлен никого необноружив там…	прийдя в МГТУ я был удивлен никого не обнаружив там...

指標

以下是用於確定拼寫檢查器正確性的自動指標。我們在所有四個可用數據集上，將我們的解決方案與開源自動拼寫檢查器和ChatGPT系列模型進行了比較：

RUSpellRU：從(LiveJournal)收集的文本，手動糾正了拼寫錯誤和打字錯誤；
MultidomainGold：來自7個文本來源的示例，包括開放網絡、新聞、社交媒體、評論、字幕、政策文件和文學作品；
MedSpellChecker：來自醫學病歷的錯誤文本；
GitHubTypoCorpusRu：來自GitHub提交中的拼寫錯誤和打字錯誤。

RUSpellRU

模型	精確率	召回率	F1值
M2M100-1.2B	59.4	43.3	50.1
ChatGPT gpt-3.5-turbo-0301	55.8	75.3	64.1
ChatGPT gpt-4-0314	57.0	75.9	63.9
ChatGPT text-davinci-003	55.9	75.3	64.2
Yandex.Speller	83.0	59.8	69.5
JamSpell	42.1	32.8	36.9
HunSpell	31.3	34.9	33.0

MultidomainGold

模型	精確率	召回率	F1值
M2M100-1.2B	56.4	44.8	49.9
ChatGPT gpt-3.5-turbo-0301	33.8	72.1	46.0
ChatGPT gpt-4-0314	34.0	73.2	46.4
ChatGPT text-davinci-003	33.6	72.0	45.8
Yandex.Speller	52.9	51.4	52.2
JamSpell	25.7	30.6	28.0
HunSpell	16.2	40.1	23.0

MedSpellChecker

模型	精確率	召回率	F1值
M2M100-1.2B	63.7	57.8	60.6
ChatGPT gpt-3.5-turbo-0301	53.2	67.6	59.6
ChatGPT gpt-4-0314	54.2	69.4	60.9
ChatGPT text-davinci-003	47.8	68.4	56.3
Yandex.Speller	80.6	47.8	60.0
JamSpell	24.6	29.7	26.9
HunSpell	10.3	40.2	16.4

GitHubTypoCorpusRu

模型	精確率	召回率	F1值
M2M100-1.2B	45.7	41.4	43.5
ChatGPT gpt-3.5-turbo-0301	43.8	57.0	49.6
ChatGPT gpt-4-0314	45.2	58.2	51.0
ChatGPT text-davinci-003	46.5	58.1	51.7
Yandex.Speller	67.7	37.5	48.3
JamSpell	49.5	29.9	37.3
HunSpell	28.5	30.7	29.6