R

Roberta Hindi Guj San

由surajp開發
基於印地語、梵語和古吉拉特語維基百科文章訓練的多語言RoBERTa類模型,支持三種印度語系語言處理。
下載量 51
發布時間 : 3/2/2022

模型概述

該模型通過分階段訓練策略,先在印地語上預訓練,再在梵語和古吉拉特語混合文本上微調,旨在利用語言相似性提升多語言處理能力。

模型特點

多語言聯合訓練
通過共享詞表和分階段訓練策略,實現三種印度語系語言的聯合建模
遷移學習優化
先使用印地語預訓練,再微調其他語言,利用語言相似性提升效果
高效分詞器
基於合併文本訓練的統一分詞器,支持三語混合處理

模型能力

文本填充
語言建模
多語言文本理解

使用案例

教育領域
古吉拉特語語法檢查
自動檢測和修正古吉拉特語句法錯誤
示例顯示能正確預測句子缺失成分
文化保護
梵語古籍數字化
輔助古代梵語文獻的機器處理與理解
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase