🚀 RuM2M100-1.2Bモデル
このモデルは、テキスト内のすべての単語をロシア語の規範に合わせることで、スペルミスやタイプミスを修正します。修正器は、M2M100-1.2Bモデルをベースに訓練されました。訓練コーパスとして、「人工的」な誤りを含む大規模なデータセットが使用されました。このコーパスは、ロシア語のウィキペディアとロシア語の動画の文字起こしを基に作成され、その後、SAGEライブラリを使用して自動的にタイプミスとスペルミスが導入されました。
🚀 クイックスタート
以下のコードを使用して、モデルを使うことができます。
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
path_to_model = "ai-forever/RuM2M100-1.2B"
model = M2M100ForConditionalGeneration.from_pretrained(path_to_model)
tokenizer = M2M100Tokenizer.from_pretrained(path_to_model, src_lang="ru", tgt_lang="ru")
sentence = "прийдя в МГТУ я был удивлен никого необноружив там…"
encodings = tokenizer(sentence, return_tensors="pt")
generated_tokens = model.generate(
**encodings, forced_bos_token_id=tokenizer.get_lang_id("ru"))
answer = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(answer)
✨ 主な機能
- ロシア語のテキスト内のスペルミスやタイプミスを修正します。
- 大規模なデータセットを使用して訓練され、高い精度を実現します。
📚 ドキュメント
公開参考文献
例
入力 |
出力 |
Думю ешцъа лет череа 10 ретроспективно просматривотьэ то будкетцц мне невероя тна ин те р но |
Думаю что лет через 10 ретроспективно просматривать это будет мне невероятно интересно |
Основая цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий, сокращение временных показателей реагирования. |
Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования. |
прийдя в МГТУ я был удивлен никого необноружив там… |
прийдя в МГТУ я был удивлен никого не обнаружив там... |
評価指標
品質
以下は、スペルチェッカーの正確性を判断するための自動評価指標です。当社の解決策を、すべての4つの利用可能なデータセットで、オープンな自動スペルチェッカーとChatGPTファミリーのモデルと比較しています。
- RUSpellRU:(LiveJournal)から収集されたテキストで、手動で修正されたタイプミスと誤りが含まれています。
- MultidomainGold:オープンウェブ、ニュース、ソーシャルメディア、レビュー、字幕、政策文書、文学作品など、7つのテキストソースからの例。
- MedSpellChecker:医療アナムネシスからの誤りを含むテキスト。
- GitHubTypoCorpusRu:GitHubのコミット内のスペルミスとタイプミス。
RUSpellRU
モデル |
適合率 |
再現率 |
F1値 |
M2M100-1.2B |
59.4 |
43.3 |
50.1 |
ChatGPT gpt-3.5-turbo-0301 |
55.8 |
75.3 |
64.1 |
ChatGPT gpt-4-0314 |
57.0 |
75.9 |
63.9 |
ChatGPT text-davinci-003 |
55.9 |
75.3 |
64.2 |
Yandex.Speller |
83.0 |
59.8 |
69.5 |
JamSpell |
42.1 |
32.8 |
36.9 |
HunSpell |
31.3 |
34.9 |
33.0 |
MultidomainGold
モデル |
適合率 |
再現率 |
F1値 |
M2M100-1.2B |
56.4 |
44.8 |
49.9 |
ChatGPT gpt-3.5-turbo-0301 |
33.8 |
72.1 |
46.0 |
ChatGPT gpt-4-0314 |
34.0 |
73.2 |
46.4 |
ChatGPT text-davinci-003 |
33.6 |
72.0 |
45.8 |
Yandex.Speller |
52.9 |
51.4 |
52.2 |
JamSpell |
25.7 |
30.6 |
28.0 |
HunSpell |
16.2 |
40.1 |
23.0 |
MedSpellChecker
モデル |
適合率 |
再現率 |
F1値 |
M2M100-1.2B |
63.7 |
57.8 |
60.6 |
ChatGPT gpt-3.5-turbo-0301 |
53.2 |
67.6 |
59.6 |
ChatGPT gpt-4-0314 |
54.2 |
69.4 |
60.9 |
ChatGPT text-davinci-003 |
47.8 |
68.4 |
56.3 |
Yandex.Speller |
80.6 |
47.8 |
60.0 |
JamSpell |
24.6 |
29.7 |
26.9 |
HunSpell |
10.3 |
40.2 |
16.4 |
GitHubTypoCorpusRu
モデル |
適合率 |
再現率 |
F1値 |
M2M100-1.2B |
45.7 |
41.4 |
43.5 |
ChatGPT gpt-3.5-turbo-0301 |
43.8 |
57.0 |
49.6 |
ChatGPT gpt-4-0314 |
45.2 |
58.2 |
51.0 |
ChatGPT text-davinci-003 |
46.5 |
58.1 |
51.7 |
Yandex.Speller |
67.7 |
37.5 |
48.3 |
JamSpell |
49.5 |
29.9 |
37.3 |
HunSpell |
28.5 |
30.7 |
29.6 |
リソース
仕様
属性 |
詳情 |
ファイルサイズ |
5 Gb |
フレームワーク |
pytorch |
形式 |
AIサービス |
バージョン |
v1.0 |
開発者 |
SberDevices, AGI NLP |
📄 ライセンス
当社の解決策が基づいているM2M100-1.2Bモデルとそのソースコードは、MITオープンライセンスで提供されています。当社の解決策もMITライセンスで提供されます。
🔧 技術詳細
当社の修正器は、M2M100-1.2Bモデルをベースに訓練されています。訓練コーパスは、ロシア語のウィキペディアとロシア語の動画の文字起こしを基に作成され、その後、SAGEライブラリを使用して自動的にタイプミスとスペルミスが導入されました。
📞 お問い合わせ
nikita.martynov.98@list.ru