sage-fredt5-distilled-95m開源模型 - 免費實現俄語拼寫、標點與大小寫錯誤校正

首頁

Sage Fredt5 Distilled 95m

由ai-forever開發

基於FRED-T5-1.7B架構的蒸餾模型，用於俄語拼寫、標點及大小寫錯誤的自動校正

文本生成

Transformers

其他開源協議:MIT #俄語拼寫校正 #標點修復 #多領域適配

下載量 1,553

發布時間 : 3/11/2024

模型概述

該模型通過將文本中的所有單詞規範化為俄語標準形式，糾正拼寫、標點錯誤及打字錯誤。訓練採用了包含人工錯誤的廣泛數據集，適用於多種文本糾錯場景。

模型特點

多錯誤類型校正

同時處理拼寫錯誤、標點錯誤和大小寫錯誤

合成數據訓練

使用SAGE庫自動生成訓練數據中的錯誤，覆蓋廣泛錯誤類型

領域適應性

在通用文本和特定領域(如醫學)都表現良好

模型能力

俄語拼寫校正

標點符號修正

大小寫規範化

打字錯誤糾正

使用案例

文本處理

社交媒體文本校正

修正用戶生成內容中的拼寫和語法錯誤

在LiveJournal數據集上F1達到78.9

專業文檔校對

自動檢查醫學文檔等專業文本

在醫學數據集上F1達到64.9

內容生產

自動字幕校正

修正視頻轉錄文本中的錯誤

🚀 sage-fredt5-distilled-95m

該模型能夠將文本中的所有單詞規範為俄語標準形式，從而糾正拼寫和標點錯誤以及打字錯誤。

🚀 快速開始

代碼示例

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-distilled-95m")

model.to("cuda")

sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]

✨ 主要特性

該模型能夠將文本中的所有單詞規範為俄語標準形式，從而糾正拼寫和標點錯誤以及打字錯誤。
校正器是基於 FRED-T5-1.7B 架構訓練的原始模型的蒸餾版本。
訓練語料採用了包含 “人工” 錯誤的廣泛數據集：該語料庫基於俄語維基百科和俄語視頻的文字記錄進行組裝，然後使用 SAGE 庫自動引入拼寫錯誤和打字錯誤。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-distilled-95m")

model.to("cuda")

sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]

📚 詳細文檔

公共引用

示例

輸入	輸出
И не чсно прохожим в этот день непогожйи почему я веселый такйо	И не ясно прохожим в этот день непогожий, почему я весёлый такой?
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай	Каждый день вот так делай, и спена болеть не будет. А вот так каждый день — ни делай.
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий сокращение временных показателей реагирования.	Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования.

指標

質量

以下是用於確定拼寫檢查器正確性的自動指標。我們在所有四個可用數據集上，將我們的解決方案與開源自動拼寫檢查器和 ChatGPT 系列模型進行了比較：

RUSpellRU：從 (LiveJournal) 收集的文本，其中的拼寫錯誤和打字錯誤已手動糾正；
MultidomainGold：來自 7 個文本來源的示例，包括開放網絡、新聞、社交媒體、評論、字幕、政策文件和文學作品；
MedSpellChecker：來自醫療病歷的錯誤文本；
GitHubTypoCorpusRu：來自 GitHub 提交中的拼寫錯誤和打字錯誤。

RUSpellRU

模型	拼寫準確率	拼寫召回率	拼寫 F1 值	標點準確率	標點召回率	標點 F1 值	大小寫準確率	大小寫召回率	大小寫 F1 值
sage-fredt5-distilled-95m	83.5	74.8	78.9	86.8	80.6	83.6	94.4	92.5	93.5
sage-ai-service	90.3	86.3	88.2	90.3	86.6	88.4	95.2	95.9	95.6
gpt-3.5-turbo	33.6	58.5	42.7	85.9	64.6	73.7	84.9	73.9	79.0
gpt-4	54.9	76.7	64.0	84.0	82.3	83.2	91.5	90.2	90.9

MultidomainGold

模型	拼寫準確率	拼寫召回率	拼寫 F1 值	標點準確率	標點召回率	標點 F1 值	大小寫準確率	大小寫召回率	大小寫 F1 值
sage-fredt5-distilled-95m	77.2	69.9	73.4	66.8	63.4	65.0	76.8	79.1	77.9
sage-ai-service	81.6	77.7	79.6	70.2	67.5	68.8	80.5	80.5	80.5
gpt-3.5-turbo	18.8	48.1	27.1	42.0	31.8	36.2	47.1	51.3	49.1
gpt-4	25.4	68.0	37.0	57.8	54.3	56.0	54.0	67.5	60.0

MedSpellChecker

模型	拼寫準確率	拼寫召回率	拼寫 F1 值	標點準確率	標點召回率	標點 F1 值	大小寫準確率	大小寫召回率	大小寫 F1 值
sage-fredt5-distilled-95m	65.1	64.8	64.9	78.6	63.1	70.0	63.5	74.7	68.7
sage-ai-service	71.3	73.5	72.4	75.1	69.2	72.0	80.9	72.8	76.6
gpt-3.5-turbo	14.7	45.9	22.3	69.9	52.3	59.8	26.4	41.8	32.3
gpt-4	37.8	72.3	49.6	81.4	64.3	71.9	73.0	62.1	67.1

GitHubTypoCorpusRu

模型	拼寫準確率	拼寫召回率	拼寫 F1 值	標點準確率	標點召回率	標點 F1 值	大小寫準確率	大小寫召回率	大小寫 F1 值
sage-fredt5-distilled-95m	57.8	48.5	52.7	45.2	39.5	42.1	29.9	46.2	36.3
sage-ai-service	70.8	56.3	62.7	48.9	35.8	41.4	32.9	45.3	38.1
gpt-3.5-turbo	23.7	38.7	29.4	37.6	23.3	28.7	19.6	35.9	25.3
gpt-4	27.0	52.8	35.7	45.9	32.6	38.2	25.7	36.8	30.2

侷限性

複雜的格式可能會在輸出生成時帶來一些問題。

資源

SAGE 庫，GitHub
sage-fredt5-large，HuggingFace
sage-fredt5-distilled-95m，HuggingFace
sage-m2m100-1.2B，HuggingFace
sage-mt5-large，HuggingFace

規格

屬性	詳情
模型類型	基於 FRED-T5-1.7B 架構的蒸餾版本
訓練數據	基於俄語維基百科和俄語視頻文字記錄組裝的數據集，使用 SAGE 庫引入人工錯誤
文件大小	0.383 Gb
框架	pytorch
版本	v1.0
開發者	SberDevices, AGI NLP