🚀 RuM2M100-1.2B模型
RuM2M100-1.2B模型能夠將文本中的所有單詞規範為俄語標準形式,從而糾正拼寫錯誤和打字錯誤。該模型基於M2M100-1.2B模型進行訓練。
✨ 主要特性
- 該模型能夠有效糾正俄語中的拼寫錯誤和打字錯誤,將文本中的所有單詞規範為俄語標準形式。
- 基於M2M100-1.2B模型進行訓練,利用了大規模的“人工”錯誤數據集。
- 訓練語料庫基於俄語維基百科和俄語視頻轉錄本構建,並使用SAGE庫自動引入了拼寫錯誤和打字錯誤。
📦 安裝指南
文檔未提及安裝步驟,此部分跳過。
💻 使用示例
基礎用法
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
path_to_model = "ai-forever/RuM2M100-1.2B"
model = M2M100ForConditionalGeneration.from_pretrained(path_to_model)
tokenizer = M2M100Tokenizer.from_pretrained(path_to_model, src_lang="ru", tgt_lang="ru")
sentence = "прийдя в МГТУ я был удивлен никого необноружив там…"
encodings = tokenizer(sentence, return_tensors="pt")
generated_tokens = model.generate(
**encodings, forced_bos_token_id=tokenizer.get_lang_id("ru"))
answer = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(answer)
📚 詳細文檔
模型概述
該拼寫糾正器基於M2M100-1.2B模型進行訓練。訓練語料庫採用了一個包含“人工”錯誤的廣泛數據集,該數據集基於俄語維基百科和俄語視頻的轉錄本構建,然後使用SAGE庫自動引入了拼寫錯誤和打字錯誤。
公共參考資料
示例
輸入 |
輸出 |
Думю ешцъа лет череа 10 ретроспективно просматривотьэ то будкетцц мне невероя тна ин те р но |
Думаю что лет через 10 ретроспективно просматривать это будет мне невероятно интересно |
Основая цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий, сокращение временных показателей реагирования. |
Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования. |
прийдя в МГТУ я был удивлен никого необноружив там… |
прийдя в МГТУ я был удивлен никого не обнаружив там... |
指標
以下是用於確定拼寫檢查器正確性的自動指標。我們在所有四個可用數據集上,將我們的解決方案與開源自動拼寫檢查器和ChatGPT系列模型進行了比較:
- RUSpellRU:從(LiveJournal)收集的文本,手動糾正了拼寫錯誤和打字錯誤;
- MultidomainGold:來自7個文本來源的示例,包括開放網絡、新聞、社交媒體、評論、字幕、政策文件和文學作品;
- MedSpellChecker:來自醫學病歷的錯誤文本;
- GitHubTypoCorpusRu:來自GitHub提交中的拼寫錯誤和打字錯誤。
RUSpellRU
模型 |
精確率 |
召回率 |
F1值 |
M2M100-1.2B |
59.4 |
43.3 |
50.1 |
ChatGPT gpt-3.5-turbo-0301 |
55.8 |
75.3 |
64.1 |
ChatGPT gpt-4-0314 |
57.0 |
75.9 |
63.9 |
ChatGPT text-davinci-003 |
55.9 |
75.3 |
64.2 |
Yandex.Speller |
83.0 |
59.8 |
69.5 |
JamSpell |
42.1 |
32.8 |
36.9 |
HunSpell |
31.3 |
34.9 |
33.0 |
MultidomainGold
模型 |
精確率 |
召回率 |
F1值 |
M2M100-1.2B |
56.4 |
44.8 |
49.9 |
ChatGPT gpt-3.5-turbo-0301 |
33.8 |
72.1 |
46.0 |
ChatGPT gpt-4-0314 |
34.0 |
73.2 |
46.4 |
ChatGPT text-davinci-003 |
33.6 |
72.0 |
45.8 |
Yandex.Speller |
52.9 |
51.4 |
52.2 |
JamSpell |
25.7 |
30.6 |
28.0 |
HunSpell |
16.2 |
40.1 |
23.0 |
MedSpellChecker
模型 |
精確率 |
召回率 |
F1值 |
M2M100-1.2B |
63.7 |
57.8 |
60.6 |
ChatGPT gpt-3.5-turbo-0301 |
53.2 |
67.6 |
59.6 |
ChatGPT gpt-4-0314 |
54.2 |
69.4 |
60.9 |
ChatGPT text-davinci-003 |
47.8 |
68.4 |
56.3 |
Yandex.Speller |
80.6 |
47.8 |
60.0 |
JamSpell |
24.6 |
29.7 |
26.9 |
HunSpell |
10.3 |
40.2 |
16.4 |
GitHubTypoCorpusRu
模型 |
精確率 |
召回率 |
F1值 |
M2M100-1.2B |
45.7 |
41.4 |
43.5 |
ChatGPT gpt-3.5-turbo-0301 |
43.8 |
57.0 |
49.6 |
ChatGPT gpt-4-0314 |
45.2 |
58.2 |
51.0 |
ChatGPT text-davinci-003 |
46.5 |
58.1 |
51.7 |
Yandex.Speller |
67.7 |
37.5 |
48.3 |
JamSpell |
49.5 |
29.9 |
37.3 |
HunSpell |
28.5 |
30.7 |
29.6 |
🔧 技術細節
文檔未提及技術實現細節,此部分跳過。
📄 許可證
模型M2M100-1.2B及其源代碼基於MIT開源許可證提供。我們的解決方案也採用MIT許可證。
📋 規格信息
屬性 |
詳情 |
文件大小 |
5 Gb |
框架 |
pytorch |
格式 |
AI服務 |
版本 |
v1.0 |
開發者 |
SberDevices, AGI NLP |
📞 聯繫方式
如需聯繫,請發送郵件至 nikita.martynov.98@list.ru。
📚 資源鏈接