sage - mt5 - largeオープンソーススペルチェックモデル - ロシア語と英語のスペルミス、入力ミスを無料で修正

ホーム

Sage Mt5 Large

ai-foreverによって開発

mT5-largeアーキテクチャに基づくロシア語と英語のスペルチェックモデルで、単語を正規化することでスペルミスやタイプミスを修正します。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #ロシア語と英語のスペル訂正 #多領域適応 #高いリコール率

ダウンロード数 51

リリース時間 : 3/11/2024

モデル概要

このモデルは、ロシア語と英語のスペルミスやタイプミスを修正し、テキスト中のすべての単語を言語標準に正規化します。mT5-largeアーキテクチャを基に訓練され、訓練コーパスには人為的に導入された誤りを含む広範なデータセットが含まれています。

モデル特徴

多言語対応

ロシア語と英語のスペルチェックとテキスト正規化をサポートします。

mT5-largeアーキテクチャに基づく

強力なmT5-largeアーキテクチャを利用してテキスト生成タスクを行います。

合成誤りによる訓練

訓練データには人為的に導入されたスペルミスやタイプミスが含まれており、モデルのロバスト性を向上させます。

広範なデータセットでの評価

複数のロシア語と英語のスペルチェックベンチマークデータセットで全面的に評価されています。

モデル能力

ロシア語のスペルチェック

英語のスペルチェック

テキスト正規化

タイプミスの修正

使用事例

テキスト処理

ソーシャルメディアテキストの訂正

ソーシャルメディアの投稿に含まれるスペルミスやタイプミスを自動的に修正します。

RUSpellRUデータセットで61.4のF1値を達成しました

医療テキストの正規化

医療履歴に含まれる専門用語のスペルミスを修正します。

MedSpellcheckerデータセットで47.0のF1値を達成しました

コードコメントの訂正

GitHubのコードコミットに含まれるスペルミスを修正します。

GitHubTypoCorpusRuデータセットで50.4のF1値を達成しました

多領域アプリケーション

多領域テキストの訂正

ニュース、ソーシャルメディア、文学作品など複数の領域からのテキストエラーを処理します。

MultidomainGoldデータセットで43.9のF1値を達成しました

🚀 sage-mt5-large

このモデルは、ロシア語と英語の両方の文章におけるスペルミスやタイプミスを修正し、文章中のすべての単語を言語の規範に合わせます。この修正器は、mT5-large アーキテクチャをベースにトレーニングされています。トレーニングコーパスとして、「人工的」な誤りを含む大規模なデータセットが使用されています。このコーパスは、ロシア語のウィキペディアとロシア語のビデオの文字起こしを基に作成され、その後、SAGE ライブラリを使用して自動的にタイプミスとスペルミスが導入されました。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-mt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-mt5-large", device_map='cuda')

sentence = "Перведи мне текст на аглиском: \"Screw you kuys, I am goin hme (c)."
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["Переведи мне текст на английском: "Screw you guys, I am going home" (c)."]

✨ 主な機能

ロシア語と英語の文章におけるスペルミスやタイプミスを修正します。
mT5-large アーキテクチャをベースにトレーニングされています。
大規模な「人工的」誤りを含むデータセットを使用してトレーニングされています。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-mt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-mt5-large", device_map='cuda')

sentence = "Перведи мне текст на аглиском: \"Screw you kuys, I am goin hme (c)."
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["Переведи мне текст на английском: "Screw you guys, I am going home" (c)."]

📚 ドキュメント

公開されている参考文献

入出力の例

入力	出力
Перведи мне текст на аглиском: "Screw you kuys, I am goin hme (c).	Переведи мне текст на английском: "Screw you guys, I am going home" (c).
И не чсно прохожим в этот день непогожйи почему я веселый такйо	И мне ясно прохожим в этот день непогожий, почему я веселый такой
If you bought something goregous, you well be very happy.	If you bought something gorgeous, you will be very happy.

評価指標

品質

以下は、スペルチェッカーの正確性を判断するための自動評価指標です。私たちは、利用可能なすべての6つのデータセットで、オープンな自動スペルチェッカーとChatGPTファミリーのモデルの両方と私たちのソリューションを比較しています。

RUSpellRU: (LiveJournal) から収集されたテキストで、手動で修正されたタイプミスと誤りが含まれています。
MultidomainGold: オープンウェブ、ニュース、ソーシャルメディア、レビュー、字幕、政策文書、文学作品など7つのテキストソースからの例が含まれています。
MedSpellChecker: 医療アナムネーシスからの誤りを含むテキストです。
GitHubTypoCorpusRu: GitHub のコミットに含まれるスペルミスとタイプミスです。
BEA60K: いくつかのドメインから収集された英語のスペルミスです。
JFLEG: 約2000のスペルミスを含む1601文の英語の文章です。

RUSpellRU、MultidomainGold、MedSpellChecker、GitHubTypoCorpusRu はロシア語のスペルチェック用のデータセットで、BEA60K と JFLEG は英語用のデータセットです。

RUSpellRU

モデル	適合率	再現率	F1値
sage-mt5-large	55.7	68.5	61.4
sage-mt5-large (ft.)	88.4	71.6	79.1
sage-ai-service	93.5	82.4	87.6
gpt-3.5-turbo	39.6	62.3	48.5
gpt-4	69.5	81.0	74.8

MultidomainGold

モデル	適合率	再現率	F1値
sage-mt5-large	35.4	57.9	43.9
sage-mt5-large (ft.)	65.3	62.7	63.9
sage-ai-service	70.9	68.8	69.9
gpt-3.5-turbo	17.8	56.1	27.0
gpt-4	31.1	78.1	44.5

MedSpellChecker

モデル	適合率	再現率	F1値
sage-mt5-large	35.1	70.8	47.0
sage-mt5-large (ft.)	77.7	77.5	77.6
sage-ai-service	73.4	76.2	74.9
gpt-3.5-turbo	15.1	53.6	23.5
gpt-4	48.9	88.7	63.1

GitHubTypoCorpusRu

モデル	適合率	再現率	F1値
sage-mt5-large	47.4	53.8	50.4
sage-mt5-large (ft.)	69.5	46.0	55.3
sage-ai-service	76.1	51.2	61.2
gpt-3.5-turbo	23.7	43.9	30.8
gpt-4	34.7	60.5	44.1

BEA60K

モデル	適合率	再現率	F1値
sage-mt5-large	64.7	83.8	73.0
gpt-3.5-turbo	66.9	84.1	74.5
gpt-4	68.6	85.2	76.0
Bert (https://github.com/neuspell/neuspell)	65.8	79.6	72.0
SC-LSTM (https://github.com/neuspell/neuspell)	62.2	80.3	72.0

JFLEG

モデル	適合率	再現率	F1値
sage-mt5-large	74.9	88.4	81.1
gpt-3.5-turbo	77.8	88.6	82.9
gpt-4	77.9	88.3	82.8
Bert (https://github.com/neuspell/neuspell)	78.5	85.4	81.8
SC-LSTM (https://github.com/neuspell/neuspell)	80.6	86.1	83.2