sage-fredt5-largeオープンソースのロシア語スペルチェックモデル - スペル、句読点、大文字と小文字のエラーを無料で修正

ホーム

Sage Fredt5 Large

ai-foreverによって開発

FRED-T5-largeでトレーニングされたロシア語スペルチェックモデル。スペルミス、句読点、大文字小文字の誤りを修正可能

テキスト生成

Transformers

その他オープンソースライセンス:MIT #ロシア語スペルチェック #句読点修正 #マルチドメイン対応

ダウンロード数 189

リリース時間 : 3/11/2024

モデル概要

このモデルはテキスト内の全ての単語をロシア語標準に正規化し、スペルミス、句読点の誤り、タイプミスを修正します。FRED-T5-largeアーキテクチャでトレーニングされ、訓練データには人工的に生成された誤りサンプルが含まれています。

モデル特徴

複数誤りタイプ修正

スペルミス、句読点の誤り、大文字小文字の誤りを同時に処理可能

合成データに基づく訓練

SAGEライブラリを使用して訓練データの誤りサンプルを自動生成

マルチドメイン適応

ソーシャルメディア、医療、技術テキストなど複数領域のテストセットで良好な性能

モデル能力

ロシア語スペル修正

句読点正規化

大文字小文字修正

タイプミス修正

使用事例

テキスト処理

ソーシャルメディアテキスト正規化

ソーシャルメディアの非公式スペルやタイプミスを修正

RUSpellRUデータセットでF1値62.2を達成

医療テキスト標準化

医療記録のスペルや専門用語の誤りを修正

MedSpellcheckerデータセットでF1値42.7を達成

コンテンツモデレーション

ユーザー生成コンテンツチェック

ユーザー投稿コンテンツの言語誤りを自動検出・修正

MultidomainGoldデータセットでF1値46.3を達成

🚀 sage-fredt5-large

このモデルは、テキスト内の全ての単語をロシア語の規範に合わせることで、スペルや句読点の誤り、タイプミスを修正します。

🚀 クイックスタート

このモデルは、ロシア語の文章のスペルと句読点の誤りを修正するために開発されました。以下に使用方法の例を示します。

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-large", device_map='cuda')

sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]

✨ 主な機能

ロシア語の文章のスペルと句読点の誤りを修正します。
合成誤差生成方法を用いて訓練されたモデルです。

📦 インストール

インストールにはtransformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-large", device_map='cuda')

sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]

📚 ドキュメント

公開されている参考文献

入出力の例

入力	出力
И не чсно прохожим в этот день непогожйи почему я веселый такйо	И не ясно прохожим в этот день непогожий, почему я веселый такой.
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай	Каждый день вот так делай и спина болеть не будет. А вот так каждый день не делай.
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий сокращение временных показателей реагирования.	Основная цель мероприятия — практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования

評価指標

品質

以下は、スペルチェッカーの正確性を判断するための自動評価指標です。私たちは、利用可能な4つのデータセットすべてで、オープンな自動スペルチェッカーとChatGPTファミリーのモデルの両方と私たちのソリューションを比較しています。

RUSpellRU：(LiveJournal)から収集されたテキストで、手動で修正されたタイプミスと誤りが含まれています。
MultidomainGold：オープンウェブ、ニュース、ソーシャルメディア、レビュー、字幕、政策文書、文学作品など、7つのテキストソースからの例です。
MedSpellChecker：医療アナムネーシスからの誤りを含むテキストです。
GitHubTypoCorpusRu：GitHubのコミット内のスペルミスとタイプミスです。

RUSpellRU

モデル	Pr. (spell)	Rec. (spell)	F1 (spell)	Pr. (punc)	Rec. (punc)	F1 (punc)	Pr. (case)	Rec. (case)	F1 (case)
sage-fredt5-large	57.3	68.0	62.2	86.7	46.1	60.2	92.1	67.8	78.1
sage-fredt5-large (ft)	88.4	80.9	84.5	88.2	85.3	86.8	95.5	94.0	94.7
sage-ai-service	90.3	86.3	88.2	90.3	86.6	88.4	95.2	95.9	95.6
gpt-3.5-turbo	33.6	58.5	42.7	85.9	64.6	73.7	84.9	73.9	79.0
gpt-4	54.9	76.7	64.0	84.0	82.3	83.2	91.5	90.2	90.9

MultidomainGold

モデル	Pr. (spell)	Rec. (spell)	F1 (spell)	Pr. (punc)	Rec. (punc)	F1 (punc)	Pr. (case)	Rec. (case)	F1 (case)
sage-fredt5-large	43.4	49.7	46.3	21.8	21.3	21.6	58.8	23.9	34.0
sage-fredt5-large (ft)	80.3	75.1	77.6	69.0	66.5	67.7	78.6	80.0	79.3
sage-ai-service	81.6	77.7	79.6	70.2	67.5	68.8	80.5	80.5	80.5
gpt-3.5-turbo	18.8	48.1	27.1	42.0	31.8	36.2	47.1	51.3	49.1
gpt-4	25.4	68.0	37.0	57.8	54.3	56.0	54.0	67.5	60.0

MedSpellChecker

モデル	Pr. (spell)	Rec. (spell)	F1 (spell)	Pr. (punc)	Rec. (punc)	F1 (punc)	Pr. (case)	Rec. (case)	F1 (case)
sage-fredt5-large	35.2	54.5	42.8	19.2	13.2	15.7	48.7	36.8	41.9
sage-fredt5-large (ft)	72.5	72.2	72.3	74.6	66.4	70.3	79.3	85.1	82.1
sage-ai-service	71.3	73.5	72.4	75.1	69.2	72.0	80.9	72.8	76.6
gpt-3.5-turbo	14.7	45.9	22.3	69.9	52.3	59.8	26.4	41.8	32.3
gpt-4	37.8	72.3	49.6	81.4	64.3	71.9	73.0	62.1	67.1

GitHubTypoCorpusRu

モデル	Pr. (spell)	Rec. (spell)	F1 (spell)	Pr. (punc)	Rec. (punc)	F1 (punc)	Pr. (case)	Rec. (case)	F1 (case)
sage-fredt5-large	46.0	46.6	46.3	22.7	18.3	20.2	12.0	13.2	12.6
sage-fredt5-large (ft)	67.5	53.2	59.5	48.5	38.0	42.6	37.3	50.0	42.7
sage-ai-service	70.8	56.3	62.7	48.9	35.8	41.4	32.9	45.3	38.1
gpt-3.5-turbo	23.7	38.7	29.4	37.6	23.3	28.7	19.6	35.9	25.3
gpt-4	27.0	52.8	35.7	45.9	32.6	38.2	25.7	36.8	30.2

🔧 技術詳細

このモデルは、FRED-T5-largeモデルをベースに訓練されています。訓練コーパスとして、「人工的な」誤りを含む大規模なデータセットが使用されています。このコーパスは、ロシア語のウィキペディアとロシア語のビデオの文字起こしを基に作成され、その後、SAGEライブラリを使用して自動的にタイプミスとスペルミスが導入されました。

📄 ライセンス

私たちのソリューションが基になっているFRED-T5-largeモデルとそのソースコードは、MITライセンスの下で提供されています。私たちのソリューションもMITライセンスです。

仕様

属性	詳情
モデルタイプ	sage-fredt5-large
訓練データ	ロシア語のウィキペディアとロシア語のビデオの文字起こしに人工的な誤りを導入したデータセット
ファイルサイズ	3.3 Gb
フレームワーク	pytorch
バージョン	v1.0
開発者	SberDevices, AGI NLP

制限事項

このモデルは、より良いパフォーマンスを得るために、自然な誤りを含むセットでファインチューニングすることを目的としています。実装されたモデルは事前学習モデルであり、事前学習タスクは、コーパス内のノイズの密度とその起源の点で通常のスペルチェックとは異なります。
複雑な書式設定は、出力生成にいくつかの問題を引き起こす可能性があります。