RuM2M100 - 1.2Bオープンソースロシア語スペルチェックモデル - 無料でスペルミスとタイピングミスを修正

ホーム

Rum2m100 1.2B

ai-foreverによって開発

M2M100-1.2Bをベースに訓練されたロシア語スペルチェックモデルで、スペルミスやタイプミスを修正できます

機械翻訳

Transformers

その他オープンソースライセンス:MIT #ロシア語スペル修正 #マルチドメイン対応 #高精度文法修正

ダウンロード数 407

リリース時間 : 7/26/2023

モデル概要

このモデルは、テキスト内のすべての単語をロシア語標準形に正規化することでスペルミスやタイプミスを修正し、人工的なエラーを含む広範なデータセットで訓練されています

モデル特徴

高品質なスペル修正

複数のテストデータセットでChatGPTシリーズモデルやオープンソースのスペルチェッカーを上回る性能を発揮

マルチドメイン対応

一般テキスト、医療テキスト、技術テキストなど様々な分野で良好な性能を発揮

合成エラーによるトレーニング

SAGEライブラリを使用してトレーニングデータのエラーを自動生成し、幅広いエラータイプをカバー

モデル能力

ロシア語スペルチェック

タイプミス修正

テキスト正規化

使用事例

テキスト処理

ソーシャルメディアテキスト修正

ソーシャルメディアのスペルミスやタイプミスを修正

RUSpellRUデータセットでF1スコア50.1

医療テキスト処理

病歴の専門用語のスペルミスを修正

MedSpellCheckerデータセットでF1スコア60.6

技術文書処理

技術文書やコードコメントのスペルミスを修正

GitHubTypoCorpusRuデータセットでF1スコア43.5

🚀 RuM2M100-1.2Bモデル

このモデルは、テキスト内のすべての単語をロシア語の規範に合わせることで、スペルミスやタイプミスを修正します。修正器は、M2M100-1.2Bモデルをベースに訓練されました。訓練コーパスとして、「人工的」な誤りを含む大規模なデータセットが使用されました。このコーパスは、ロシア語のウィキペディアとロシア語の動画の文字起こしを基に作成され、その後、SAGEライブラリを使用して自動的にタイプミスとスペルミスが導入されました。

🚀 クイックスタート

以下のコードを使用して、モデルを使うことができます。

from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer

path_to_model = "ai-forever/RuM2M100-1.2B"

model = M2M100ForConditionalGeneration.from_pretrained(path_to_model)
tokenizer = M2M100Tokenizer.from_pretrained(path_to_model, src_lang="ru", tgt_lang="ru")

sentence = "прийдя в МГТУ я был удивлен никого необноружив там…"

encodings = tokenizer(sentence, return_tensors="pt")
generated_tokens = model.generate(
        **encodings, forced_bos_token_id=tokenizer.get_lang_id("ru"))
answer = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(answer)

#["прийдя в МГТУ я был удивлен никого не обнаружив там..."]

✨ 主な機能

ロシア語のテキスト内のスペルミスやタイプミスを修正します。
大規模なデータセットを使用して訓練され、高い精度を実現します。

📚 ドキュメント

公開参考文献

例

入力	出力
Думю ешцъа лет череа 10 ретроспективно просматривотьэ то будкетцц мне невероя тна ин те р но	Думаю что лет через 10 ретроспективно просматривать это будет мне невероятно интересно
Основая цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий, сокращение временных показателей реагирования.	Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования.
прийдя в МГТУ я был удивлен никого необноружив там…	прийдя в МГТУ я был удивлен никого не обнаружив там...

評価指標

品質

以下は、スペルチェッカーの正確性を判断するための自動評価指標です。当社の解決策を、すべての4つの利用可能なデータセットで、オープンな自動スペルチェッカーとChatGPTファミリーのモデルと比較しています。

RUSpellRU：(LiveJournal)から収集されたテキストで、手動で修正されたタイプミスと誤りが含まれています。
MultidomainGold：オープンウェブ、ニュース、ソーシャルメディア、レビュー、字幕、政策文書、文学作品など、7つのテキストソースからの例。
MedSpellChecker：医療アナムネシスからの誤りを含むテキスト。
GitHubTypoCorpusRu：GitHubのコミット内のスペルミスとタイプミス。

RUSpellRU

モデル	適合率	再現率	F1値
M2M100-1.2B	59.4	43.3	50.1
ChatGPT gpt-3.5-turbo-0301	55.8	75.3	64.1
ChatGPT gpt-4-0314	57.0	75.9	63.9
ChatGPT text-davinci-003	55.9	75.3	64.2
Yandex.Speller	83.0	59.8	69.5
JamSpell	42.1	32.8	36.9
HunSpell	31.3	34.9	33.0

MultidomainGold

モデル	適合率	再現率	F1値
M2M100-1.2B	56.4	44.8	49.9
ChatGPT gpt-3.5-turbo-0301	33.8	72.1	46.0
ChatGPT gpt-4-0314	34.0	73.2	46.4
ChatGPT text-davinci-003	33.6	72.0	45.8
Yandex.Speller	52.9	51.4	52.2
JamSpell	25.7	30.6	28.0
HunSpell	16.2	40.1	23.0

MedSpellChecker

モデル	適合率	再現率	F1値
M2M100-1.2B	63.7	57.8	60.6
ChatGPT gpt-3.5-turbo-0301	53.2	67.6	59.6
ChatGPT gpt-4-0314	54.2	69.4	60.9
ChatGPT text-davinci-003	47.8	68.4	56.3
Yandex.Speller	80.6	47.8	60.0
JamSpell	24.6	29.7	26.9
HunSpell	10.3	40.2	16.4

GitHubTypoCorpusRu

モデル	適合率	再現率	F1値
M2M100-1.2B	45.7	41.4	43.5
ChatGPT gpt-3.5-turbo-0301	43.8	57.0	49.6
ChatGPT gpt-4-0314	45.2	58.2	51.0
ChatGPT text-davinci-003	46.5	58.1	51.7
Yandex.Speller	67.7	37.5	48.3
JamSpell	49.5	29.9	37.3
HunSpell	28.5	30.7	29.6