🚀 邦文羅馬字轉孟加拉文音譯模型
本模型旨在將邦文羅馬字(用羅馬字母書寫的孟加拉語)音譯為孟加拉文字符。它基於facebook/mbart-large-50-many-to-many-mmt模型,使用SKNahin/bengali-transliteration-data數據集進行微調。
🚀 快速開始
示例代碼
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
model = MBartForConditionalGeneration.from_pretrained("your-username/banglish-to-bangla-mbart")
tokenizer = MBart50TokenizerFast.from_pretrained("your-username/banglish-to-bangla-mbart")
def translate(text):
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=64)
outputs = model.generate(inputs.input_ids, max_length=64, num_beams=5, early_stopping=True)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
print(translate("ami tomake valobashi"))
✨ 主要特性
- 能夠將邦文羅馬字文本音譯為孟加拉文字符,適用於社交媒體、消息傳遞和正式交流。
- 可用於孟加拉語與其他語言之間翻譯任務的微調。
- 可以集成到聊天機器人或虛擬助理中。
📦 安裝指南
文檔未提供安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
model = MBartForConditionalGeneration.from_pretrained("your-username/banglish-to-bangla-mbart")
tokenizer = MBart50TokenizerFast.from_pretrained("your-username/banglish-to-bangla-mbart")
def translate(text):
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=64)
outputs = model.generate(inputs.input_ids, max_length=64, num_beams=5, early_stopping=True)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
print(translate("ami tomake valobashi"))
高級用法
文檔未提供高級用法示例,故跳過該部分。
📚 詳細文檔
模型詳情
模型描述
本模型專為將邦文羅馬字(用羅馬字母書寫的孟加拉語)音譯為孟加拉文字符而設計。它基於facebook/mbart-large-50-many-to-many-mmt模型,使用SKNahin/bengali-transliteration-data數據集進行微調。
屬性 |
詳情 |
開發者 |
Md. Farhan Masud Shohag |
模型類型 |
序列到序列(翻譯) |
語言 |
邦文羅馬字 → 孟加拉語(bn_BD) |
許可證 |
Apache 2.0 |
微調基礎模型 |
facebook/mbart-large-50-many-to-many-mmt |
模型來源
使用場景
直接使用
- 將邦文羅馬字文本音譯為孟加拉文字符,用於社交媒體、消息傳遞和正式交流。
下游使用
- 用於孟加拉語與其他語言之間翻譯任務的微調。
- 集成到聊天機器人或虛擬助理中。
非適用場景
- 不適合無關語言之間的通用語言翻譯。
- 無法有效處理混合語言輸入(例如,邦文羅馬字 + 英語組合)。
偏差、風險和侷限性
偏差
- 數據集可能包含非正式短語,可能會降低在正式語言上的性能。
- 對於長句或複雜句子,性能可能會下降。
侷限性
- 對於罕見短語或俚語,模型性能可能會有所不同。
- 無法有效支持混合語言輸入。
建議
用戶應針對特定用例評估輸出,特別是在正式環境中。可能需要額外的過濾或預處理。
🔧 技術細節
文檔未提供技術實現細節,故跳過該章節。
📄 許可證
本模型使用的許可證為 Apache 2.0。