sage-m2m100-1.2Bオープンソースロシア語スペルチェッカー - 無料でスペルとタイピングミスを修正

ホーム

Sage M2m100 1.2B

ai-foreverによって開発

M2M100-1.2Bモデルを基に訓練されたロシア語スペルチェッカーで、スペルミスやタイプミスを修正します

機械翻訳

Transformers

その他オープンソースライセンス:MIT #ロシア語スペルチェック #多分野テキスト正規化 #高精度文法修正

ダウンロード数 184

リリース時間 : 3/11/2024

モデル概要

このモデルはテキスト内の全ての単語をロシア語標準に正規化することで、スペルミスやタイプミスを修正します。訓練データセットにはロシア語ウィキペディアとロシア語動画の文字起こしを基に構築された、'人工的'な誤りを含む広範なデータセットが採用されています。

モデル特徴

多分野対応

ソーシャルメディア、医療、技術文書など、様々な分野のロシア語データセットで良好な性能を発揮

高精度修正

RUSpellRUデータセットで88.8%の精度と71.5%の再現率を達成

大規模モデル基盤

12億パラメータのM2M100モデルをファインチューニングしており、優れた言語理解能力を有する

モデル能力

ロシア語スペルチェック

タイプミス修正

テキスト正規化

使用事例

テキスト処理

ソーシャルメディアテキスト修正

ソーシャルメディアにおける非標準スペルやタイプミスの修正

RUSpellRUデータセットでF1値79.2を達成

医療テキスト標準化

医療記録中の専門用語のスペルミス修正

MedSpellcheckerデータセットでF1値74.9を達成

技術文書処理

コードコメント修正

GitHubコードコミット中のスペルミス修正

GitHubTypoCorpusRuデータセットでF1値44.9を達成

🚀 sage-m2m100-1.2Bモデル

バナー

このモデルは、テキスト内のすべての単語をロシア語の規範に合わせることで、スペルミスやタイプミスを修正します。修正器は、M2M100-1.2Bモデルをベースにトレーニングされています。トレーニングコーパスとして、「人工的」な誤りを含む大規模なデータセットが使用されています。このコーパスは、ロシア語のウィキペディアとロシア語のビデオの文字起こしを基に作成され、その後、SAGEライブラリを使用して自動的にタイプミスやスペルミスが導入されました。このモデルは、pre-trainの微調整バージョンです。

✨ 主な機能

ロシア語のテキストに含まれるスペルミスやタイプミスを修正します。
大規模なデータセットを使用してトレーニングされており、高い精度で誤りを検出し修正します。

📚 詳細ドキュメント

公開参考文献

仕様

属性	詳情
ファイルサイズ	5 Gb
フレームワーク	pytorch
形式	AIサービス
バージョン	v2.0
開発者	SberDevices, AGI NLP

連絡先

nikita.martynov.98@list.ru

💻 使用例

基本的な使用法

from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer

path_to_model = "ai-forever/sage-m2m100-1.2B"
model = M2M100ForConditionalGeneration.from_pretrained(path_to_model)
tokenizer = M2M100Tokenizer.from_pretrained(path_to_model, src_lang="ru", tgt_lang="ru")

sentence = "прийдя в МГТУ я был удивлен никого необноружив там…"
encodings = tokenizer(sentence, return_tensors="pt")
generated_tokens = model.generate(
        **encodings, forced_bos_token_id=tokenizer.get_lang_id("ru"))
answer = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)

print(answer)
#["прийдя в МГТУ я был удивлен никого не обнаружив там..."]

入出力例

入力	出力
Думю ешцъа лет череа 10 ретроспективно просматривотьэ то будкетцц мне невероя тна ин те р но	Думаю что лет через 10 ретроспективно просматривать это будет мне невероятно интересно
Основая цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий, сокращение временных показателей реагирования.	Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования.
прийдя в МГТУ я был удивлен никого необноружив там…	придя в МГТУ я был удивлен никого не обнаружив там

📊 評価指標

品質

以下は、スペルチェッカーの正確性を判断するための自動評価指標です。利用可能な4つのデータセットすべてで、当社のソリューションをオープンな自動スペルチェッカーとChatGPTファミリーのモデルと比較しています。

RUSpellRU：(LiveJournal)から収集されたテキストで、手動で修正されたタイプミスや誤りが含まれています。
MultidomainGold：オープンウェブ、ニュース、ソーシャルメディア、レビュー、字幕、政策文書、文学作品など、7つのテキストソースからの例。
MedSpellChecker：医療アナムネーズからの誤りを含むテキスト。
GitHubTypoCorpusRu：GitHubのコミットに含まれるスペルミスやタイプミス。

RUSpellRU

モデル	適合率	再現率	F1スコア
sage-m2m100-1.2B	88.8	71.5	79.2
sage-ai-service	93.5	82.4	87.6
gpt-3.5-turbo	39.6	62.3	48.5
gpt-4	69.5	81.0	74.8
Yandex.Speller	83.0	59.8	69.5
JamSpell	42.1	32.8	36.9
HunSpell	31.3	34.9	33.0

MultidomainGold

モデル	適合率	再現率	F1スコア
sage-m2m100-1.2B	63.8	61.1	62.4
sage-ai-service	70.9	68.8	69.9
gpt-3.5-turbo	17.8	56.1	27.0
gpt-4	31.1	78.1	44.5
Yandex.Speller	52.9	51.4	52.2
JamSpell	25.7	30.6	28.0
HunSpell	16.2	40.1	23.0

MedSpellChecker

モデル	適合率	再現率	F1スコア
sage-m2m100-1.2B	78.8	71.4	74.9
sage-ai-service	73.4	76.2	74.9
gpt-3.5-turbo	15.1	53.6	23.5
gpt-4	48.9	88.7	63.1
Yandex.Speller	80.6	47.8	60.0
JamSpell	24.6	29.7	26.9
HunSpell	10.3	40.2	16.4

GitHubTypoCorpusRu

モデル	適合率	再現率	F1スコア
sage-m2m100-1.2B	47.1	42.9	44.9
sage-ai-service	76.1	51.2	61.2
gpt-3.5-turbo	23.7	43.9	30.8
gpt-4	34.7	60.5	44.1
Yandex.Speller	67.7	37.5	48.3
JamSpell	49.5	29.9	37.3
HunSpell	28.5	30.7	29.6