🚀 sage-m2m100-1.2Bモデル

このモデルは、テキスト内のすべての単語をロシア語の規範に合わせることで、スペルミスやタイプミスを修正します。修正器は、M2M100-1.2Bモデルをベースにトレーニングされています。トレーニングコーパスとして、「人工的」な誤りを含む大規模なデータセットが使用されています。このコーパスは、ロシア語のウィキペディアとロシア語のビデオの文字起こしを基に作成され、その後、SAGEライブラリを使用して自動的にタイプミスやスペルミスが導入されました。このモデルは、pre-trainの微調整バージョンです。
✨ 主な機能
- ロシア語のテキストに含まれるスペルミスやタイプミスを修正します。
- 大規模なデータセットを使用してトレーニングされており、高い精度で誤りを検出し修正します。
📚 詳細ドキュメント
公開参考文献
仕様
属性 |
詳情 |
ファイルサイズ |
5 Gb |
フレームワーク |
pytorch |
形式 |
AIサービス |
バージョン |
v2.0 |
開発者 |
SberDevices, AGI NLP |
連絡先
nikita.martynov.98@list.ru
💻 使用例
基本的な使用法
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
path_to_model = "ai-forever/sage-m2m100-1.2B"
model = M2M100ForConditionalGeneration.from_pretrained(path_to_model)
tokenizer = M2M100Tokenizer.from_pretrained(path_to_model, src_lang="ru", tgt_lang="ru")
sentence = "прийдя в МГТУ я был удивлен никого необноружив там…"
encodings = tokenizer(sentence, return_tensors="pt")
generated_tokens = model.generate(
**encodings, forced_bos_token_id=tokenizer.get_lang_id("ru"))
answer = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(answer)
入出力例
入力 |
出力 |
Думю ешцъа лет череа 10 ретроспективно просматривотьэ то будкетцц мне невероя тна ин те р но |
Думаю что лет через 10 ретроспективно просматривать это будет мне невероятно интересно |
Основая цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий, сокращение временных показателей реагирования. |
Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования. |
прийдя в МГТУ я был удивлен никого необноружив там… |
придя в МГТУ я был удивлен никого не обнаружив там |
📊 評価指標
品質
以下は、スペルチェッカーの正確性を判断するための自動評価指標です。利用可能な4つのデータセットすべてで、当社のソリューションをオープンな自動スペルチェッカーとChatGPTファミリーのモデルと比較しています。
- RUSpellRU:(LiveJournal)から収集されたテキストで、手動で修正されたタイプミスや誤りが含まれています。
- MultidomainGold:オープンウェブ、ニュース、ソーシャルメディア、レビュー、字幕、政策文書、文学作品など、7つのテキストソースからの例。
- MedSpellChecker:医療アナムネーズからの誤りを含むテキスト。
- GitHubTypoCorpusRu:GitHubのコミットに含まれるスペルミスやタイプミス。
RUSpellRU
モデル |
適合率 |
再現率 |
F1スコア |
sage-m2m100-1.2B |
88.8 |
71.5 |
79.2 |
sage-ai-service |
93.5 |
82.4 |
87.6 |
gpt-3.5-turbo |
39.6 |
62.3 |
48.5 |
gpt-4 |
69.5 |
81.0 |
74.8 |
Yandex.Speller |
83.0 |
59.8 |
69.5 |
JamSpell |
42.1 |
32.8 |
36.9 |
HunSpell |
31.3 |
34.9 |
33.0 |
MultidomainGold
モデル |
適合率 |
再現率 |
F1スコア |
sage-m2m100-1.2B |
63.8 |
61.1 |
62.4 |
sage-ai-service |
70.9 |
68.8 |
69.9 |
gpt-3.5-turbo |
17.8 |
56.1 |
27.0 |
gpt-4 |
31.1 |
78.1 |
44.5 |
Yandex.Speller |
52.9 |
51.4 |
52.2 |
JamSpell |
25.7 |
30.6 |
28.0 |
HunSpell |
16.2 |
40.1 |
23.0 |
MedSpellChecker
モデル |
適合率 |
再現率 |
F1スコア |
sage-m2m100-1.2B |
78.8 |
71.4 |
74.9 |
sage-ai-service |
73.4 |
76.2 |
74.9 |
gpt-3.5-turbo |
15.1 |
53.6 |
23.5 |
gpt-4 |
48.9 |
88.7 |
63.1 |
Yandex.Speller |
80.6 |
47.8 |
60.0 |
JamSpell |
24.6 |
29.7 |
26.9 |
HunSpell |
10.3 |
40.2 |
16.4 |
GitHubTypoCorpusRu
モデル |
適合率 |
再現率 |
F1スコア |
sage-m2m100-1.2B |
47.1 |
42.9 |
44.9 |
sage-ai-service |
76.1 |
51.2 |
61.2 |
gpt-3.5-turbo |
23.7 |
43.9 |
30.8 |
gpt-4 |
34.7 |
60.5 |
44.1 |
Yandex.Speller |
67.7 |
37.5 |
48.3 |
JamSpell |
49.5 |
29.9 |
37.3 |
HunSpell |
28.5 |
30.7 |
29.6 |
📦 関連リソース
📄 ライセンス
当社のソリューションが基になっているM2M100-1.2Bモデルとそのソースコードは、MITオープンライセンスの下で提供されています。当社のソリューションもMITライセンスで提供されています。