sage-m2m100-1.2B開源俄語拼寫檢查器 - 免費糾正拼寫及打字錯誤

首頁

Sage M2m100 1.2B

由ai-forever開發

基於M2M100-1.2B模型訓練的俄語拼寫檢查器，用於糾正拼寫錯誤和打字錯誤

機器翻譯

Transformers

其他開源協議:MIT #俄語拼寫糾錯 #多領域文本規範 #高精度語法修正

下載量 184

發布時間 : 3/11/2024

模型概述

該模型通過將文本中的所有單詞規範為俄語標準來糾正拼寫錯誤和打字錯誤。訓練語料庫採用了包含'人工'錯誤的廣泛數據集，基於俄語維基百科和俄語視頻轉錄構建。

模型特點

多領域適用

在多個不同領域的俄語數據集上表現良好，包括社交媒體、醫療和技術文本

高精度糾正

在RUSpellRU數據集上達到88.8%的精確率和71.5%的召回率

基於大模型

基於1.2B參數的M2M100模型微調，具有較強的語言理解能力

模型能力

俄語拼寫檢查

打字錯誤糾正

文本規範化

使用案例

文本處理

社交媒體文本糾正

糾正社交媒體中的非標準拼寫和打字錯誤

在RUSpellRU數據集上F1值達79.2

醫療文本標準化

糾正醫療病史中的專業術語拼寫錯誤

在MedSpellchecker數據集上F1值達74.9

技術文檔處理

代碼註釋糾錯

糾正GitHub代碼提交中的拼寫錯誤

在GitHubTypoCorpusRu數據集上F1值達44.9

🚀 sage-m2m100-1.2B模型

該模型能夠將文本中的所有單詞規範為俄語標準形式，從而糾正拼寫錯誤和打字錯誤。它基於M2M100 - 1.2B模型進行訓練，為俄語拼寫檢查提供了高效準確的解決方案。

banner

🚀 快速開始

該模型通過將文本中的所有單詞規範為俄語語言的標準形式來糾正拼寫錯誤和打字錯誤。校正器基於M2M100 - 1.2B模型進行訓練。訓練語料採用了一個包含“人為”錯誤的廣泛數據集：該語料庫基於俄語維基百科和俄語視頻的文字記錄進行組裝，然後使用SAGE庫自動引入拼寫錯誤和打字錯誤。此模型是預訓練模型的微調版本。

✨ 主要特性

拼寫糾錯：能夠將文本中的單詞規範為俄語標準形式，有效糾正拼寫錯誤和打字錯誤。
廣泛數據集訓練：基於包含大量“人為”錯誤的數據集訓練，該數據集來源於俄語維基百科和視頻文字記錄。
微調模型：是預訓練模型RuM2M100 - 1.2B的微調版本。

📚 詳細文檔

公開引用

資源鏈接

SAGE庫，GitHub
sage - fredt5 - large，HuggingFace
sage - fredt5 - distilled - 95m，HuggingFace
sage - m2m100 - 1.2B，HuggingFace
sage - mt5 - large，HuggingFace

規格說明

屬性	詳情
文件大小	5 Gb
框架	pytorch
格式	AI服務
版本	v2.0
開發者	SberDevices, AGI NLP

聯繫方式

nikita.martynov.98@list.ru

💻 使用示例

基礎用法

from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer

path_to_model = "ai-forever/sage-m2m100-1.2B"
model = M2M100ForConditionalGeneration.from_pretrained(path_to_model)
tokenizer = M2M100Tokenizer.from_pretrained(path_to_model, src_lang="ru", tgt_lang="ru")

sentence = "прийдя в МГТУ я был удивлен никого необноружив там…"
encodings = tokenizer(sentence, return_tensors="pt")
generated_tokens = model.generate(
        **encodings, forced_bos_token_id=tokenizer.get_lang_id("ru"))
answer = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)

print(answer)
#["прийдя в МГТУ я был удивлен никого не обнаружив там..."]

示例展示

輸入	輸出
Думю ешцъа лет череа 10 ретроспективно просматривотьэ то будкетцц мне невероя тна ин те р но	Думаю что лет через 10 ретроспективно просматривать это будет мне невероятно интересно
Основая цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий, сокращение временных показателей реагирования.	Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования.
прийдя в МГТУ я был удивлен никого необноружив там…	придя в МГТУ я был удивлен никого не обнаружив там

🔧 技術細節

指標評估

以下是用於確定拼寫檢查器正確性的自動指標。我們在所有四個可用數據集上，將我們的解決方案與開源自動拼寫檢查器以及ChatGPT系列模型進行了比較：

RUSpellRU：從(LiveJournal)收集的文本，其中的拼寫錯誤和打字錯誤已手動糾正。
MultidomainGold：來自7個文本來源的示例，包括開放網絡、新聞、社交媒體、評論、字幕、政策文件和文學作品。
MedSpellChecker：包含醫療病歷中錯誤的文本。
GitHubTypoCorpusRu：來自GitHub提交記錄中的拼寫錯誤和打字錯誤。

RUSpellRU數據集指標

模型	精確率	召回率	F1值
sage - m2m100 - 1.2B	88.8	71.5	79.2
sage - ai - service	93.5	82.4	87.6
gpt - 3.5 - turbo	39.6	62.3	48.5
gpt - 4	69.5	81.0	74.8
Yandex.Speller	83.0	59.8	69.5
JamSpell	42.1	32.8	36.9
HunSpell	31.3	34.9	33.0

MultidomainGold數據集指標

模型	精確率	召回率	F1值
sage - m2m100 - 1.2B	63.8	61.1	62.4
sage - ai - service	70.9	68.8	69.9
gpt - 3.5 - turbo	17.8	56.1	27.0
gpt - 4	31.1	78.1	44.5
Yandex.Speller	52.9	51.4	52.2
JamSpell	25.7	30.6	28.0
HunSpell	16.2	40.1	23.0

MedSpellChecker數據集指標

模型	精確率	召回率	F1值
sage - m2m100 - 1.2B	78.8	71.4	74.9
sage - ai - service	73.4	76.2	74.9
gpt - 3.5 - turbo	15.1	53.6	23.5
gpt - 4	48.9	88.7	63.1
Yandex.Speller	80.6	47.8	60.0
JamSpell	24.6	29.7	26.9
HunSpell	10.3	40.2	16.4

GitHubTypoCorpusRu數據集指標

模型	精確率	召回率	F1值
sage - m2m100 - 1.2B	47.1	42.9	44.9
sage - ai - service	76.1	51.2	61.2
gpt - 3.5 - turbo	23.7	43.9	30.8
gpt - 4	34.7	60.5	44.1
Yandex.Speller	67.7	37.5	48.3
JamSpell	49.5	29.9	37.3
HunSpell	28.5	30.7	29.6