Sage-v1.1.0開源俄語拼寫檢查模型 - 免費糾正拼寫、標點及大小寫錯誤

首頁

Sage V1.1.0

由ai-forever開發

基於FRED-T5-1.7B訓練的俄語拼寫檢查模型，可糾正拼寫、標點和大小寫錯誤

文本生成

Transformers

其他開源協議:MIT #俄語拼寫糾錯 #標點修復 #多領域適應

下載量 668

發布時間 : 4/18/2024

模型概述

該模型通過將文本中的所有單詞規範為俄語標準形式，糾正拼寫、標點錯誤和打字錯誤。適用於俄語文本的自動校對和規範化處理。

模型特點

多維度糾錯

同時處理拼寫、標點和大小寫錯誤，實現全面文本規範化

高性能

在RUSpellRU數據集上達到88.2的拼寫F1值，優於GPT系列模型

領域適應性強

在醫療、技術等多個專業領域表現良好

模型能力

俄語拼寫糾錯

標點符號修正

大小寫規範化

打字錯誤糾正

使用案例

內容創作

博客文章校對

自動修正社交媒體和博客文章中的拼寫和語法錯誤

在LiveJournal數據上達到88.2 F1值

專業文檔處理

醫療文書校對

修正醫療病歷中的專業術語拼寫錯誤

在MedSpellChecker數據集上達到72.4 F1值

技術文檔

代碼註釋糾錯

修正GitHub代碼提交中的拼寫錯誤

在GitHubTypoCorpusRu數據集上達到62.7 F1值

🚀 sage-v1.1.0

sage-v1.1.0 模型可將文本中的所有單詞規範為俄語標準形式，從而糾正拼寫、標點錯誤和打字錯誤。該模型基於 FRED-T5-1.7B 模型訓練而來，具有較高的準確性和實用性。

🚀 快速開始

本模型可有效糾正俄語文本中的拼寫和標點錯誤，將文本中的所有單詞規範為俄語標準形式。模型基於 FRED-T5-1.7B 進行訓練，使用了包含“人工”錯誤的大型數據集，該數據集基於俄語維基百科和俄語視頻轉錄本構建，並使用 SAGE 庫自動引入了拼寫錯誤和打字錯誤。

代碼示例

import re
import torch
from transformers import AutoTokenizer, T5ForConditionalGeneration

tokenizer = AutoTokenizer.from_pretrained("ai-forever/FRED-T5-1.7B")
model = T5ForConditionalGeneration.from_pretrained("ai-forever/sage-v1.1.0")

model.to('cuda')

tokenizer_config = {
            'max_length': None,
            'padding': 'longest',
            'truncation': False,
            "return_tensors": "pt",
        }

def inference(sentence):
    text = "<LM>" + sentence
    with torch.inference_mode():
        encodings = tokenizer(text, **tokenizer_config)
        for k, v in encodings.items():
            encodings[k] = v.to('cuda:0')
        res = model.generate(
            **encodings,
            use_cache=True,
            max_length = encodings['input_ids'].size(1) * 1.5
        )
        res = res.cpu().tolist()
        res = tokenizer.batch_decode(res, skip_special_tokens=True)
    return res

text = 'Првет какдила'
text = re.sub(r'\n+', '\n', text)
print(inference(text))

# ['Привет, как дела?']

✨ 主要特性

拼寫和標點糾錯：能夠準確識別並糾正俄語文本中的拼寫和標點錯誤。
基於大型模型訓練：以 FRED-T5-1.7B 為基礎，保證了模型的性能和準確性。
使用廣泛數據集：訓練數據來自俄語維基百科和視頻轉錄本，涵蓋了豐富的語言場景。

💻 使用示例

基礎用法

以下是使用模型進行文本糾錯的基本示例：

import re
import torch
from transformers import AutoTokenizer, T5ForConditionalGeneration

tokenizer = AutoTokenizer.from_pretrained("ai-forever/FRED-T5-1.7B")
model = T5ForConditionalGeneration.from_pretrained("ai-forever/sage-v1.1.0")

model.to('cuda')

tokenizer_config = {
            'max_length': None,
            'padding': 'longest',
            'truncation': False,
            "return_tensors": "pt",
        }

def inference(sentence):
    text = "<LM>" + sentence
    with torch.inference_mode():
        encodings = tokenizer(text, **tokenizer_config)
        for k, v in encodings.items():
            encodings[k] = v.to('cuda:0')
        res = model.generate(
            **encodings,
            use_cache=True,
            max_length = encodings['input_ids'].size(1) * 1.5
        )
        res = res.cpu().tolist()
        res = tokenizer.batch_decode(res, skip_special_tokens=True)
    return res

text = 'Првет какдила'
text = re.sub(r'\n+', '\n', text)
print(inference(text))

# ['Привет, как дела?']

📚 詳細文檔

公開引用

示例

輸入	輸出
И не чсно прохожим в этот день непогожйи почему я веселый такйо	И не ясно прохожим в этот день непогожий, почему я веселый такой.
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай	Каждый день вот так делай и спина болеть не будет. А вот так каждый день не делай.
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий сокращение временных показателей реагирования.	Основная цель мероприятия — практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования

指標

質量

以下是用於確定拼寫檢查器正確性的自動指標。我們在四個可用數據集上，將本解決方案與開源自動拼寫檢查器以及 ChatGPT 系列模型進行了比較：

RUSpellRU：從 LiveJournal 收集的文本，其中的拼寫錯誤和打字錯誤已手動糾正。
MultidomainGold：來自 7 個文本來源的示例，包括開放網絡、新聞、社交媒體、評論、字幕、政策文件和文學作品。
MedSpellChecker：包含醫療病歷中錯誤的文本。
GitHubTypoCorpusRu：來自 GitHub 提交記錄中的拼寫錯誤和打字錯誤。

RUSpellRU

模型	拼寫準確率	拼寫召回率	拼寫 F1 值	標點準確率	標點召回率	標點 F1 值	大小寫準確率	大小寫召回率	大小寫 F1 值
sage-v1.1.0	90.3	86.3	88.2	90.3	86.6	88.4	95.2	95.9	95.6
sage-fredt5-large	57.3	68.0	62.2	86.7	46.1	60.2	92.1	67.8	78.1
sage-fredt5-large (ft)	88.4	80.9	84.5	88.2	85.3	86.8	95.5	94.0	94.7
gpt-3.5-turbo	33.6	58.5	42.7	85.9	64.6	73.7	84.9	73.9	79.0
gpt-4	54.9	76.7	64.0	84.0	82.3	83.2	91.5	90.2	90.9

MultidomainGold

模型	拼寫準確率	拼寫召回率	拼寫 F1 值	標點準確率	標點召回率	標點 F1 值	大小寫準確率	大小寫召回率	大小寫 F1 值
sage-v1.1.0	81.6	77.7	79.6	70.2	67.5	68.8	80.5	80.5	80.5
sage-fredt5-large	43.4	49.7	46.3	21.8	21.3	21.6	58.8	23.9	34.0
sage-fredt5-large (ft)	80.3	75.1	77.6	69.0	66.5	67.7	78.6	80.0	79.3
gpt-3.5-turbo	18.8	48.1	27.1	42.0	31.8	36.2	47.1	51.3	49.1
gpt-4	25.4	68.0	37.0	57.8	54.3	56.0	54.0	67.5	60.0

MedSpellChecker

模型	拼寫準確率	拼寫召回率	拼寫 F1 值	標點準確率	標點召回率	標點 F1 值	大小寫準確率	大小寫召回率	大小寫 F1 值
sage-v1.1.0	71.3	73.5	72.4	75.1	69.2	72.0	80.9	72.8	76.6
sage-fredt5-large	35.2	54.5	42.8	19.2	13.2	15.7	48.7	36.8	41.9
sage-fredt5-large (ft)	72.5	72.2	72.3	74.6	66.4	70.3	79.3	85.1	82.1
gpt-3.5-turbo	14.7	45.9	22.3	69.9	52.3	59.8	26.4	41.8	32.3
gpt-4	37.8	72.3	49.6	81.4	64.3	71.9	73.0	62.1	67.1

GitHubTypoCorpusRu

模型	拼寫準確率	拼寫召回率	拼寫 F1 值	標點準確率	標點召回率	標點 F1 值	大小寫準確率	大小寫召回率	大小寫 F1 值
sage-v1.1.0	70.8	56.3	62.7	48.9	35.8	41.4	32.9	45.3	38.1
sage-fredt5-large	46.0	46.6	46.3	22.7	18.3	20.2	12.0	13.2	12.6
sage-fredt5-large (ft)	67.5	53.2	59.5	48.5	38.0	42.6	37.3	50.0	42.7
gpt-3.5-turbo	23.7	38.7	29.4	37.6	23.3	28.7	19.6	35.9	25.3
gpt-4	27.0	52.8	35.7	45.9	32.6	38.2	25.7	36.8	30.2