OpenHathi-7B-English-to-Hinglish開源翻譯模型 - 優化印地語質量，免費部署英語轉印度英語

首頁

Openhathi 7B English To Hinglish

由akashgoel-id開發

基於llama2-7b和OPENHATHI-7B-BASE融合的英語-印度英語翻譯模型，特別優化了印地語翻譯質量

機器翻譯

Transformers

支持多種語言#英語-印度英語翻譯 #LoRA微調優化 #印地語增強

下載量 110

發布時間 : 12/17/2023

模型概述

該模型專注於英語到印度英語（Hinglish）的翻譯任務，通過LoRA模塊融合兩種架構優勢，在印地語翻譯場景表現優異

模型特點

雙語混合優化

結合llama2和OPENHATHI的優勢，特別針對印地語翻譯場景優化

LoRA模塊融合

通過LoRA技術高效融合兩種模型架構

文化適應性

能較好處理英語到印度英語的文化語境轉換

模型能力

英語到印度英語翻譯

雙語文本生成

文化語境轉換

使用案例

跨文化交流

商務溝通翻譯

將英語商務文件翻譯為印度英語版本

保留專業術語同時適應本地表達習慣

社交媒體內容本地化

將英語社交媒體內容轉換為印度英語

增強印度用戶的接受度和參與度

🚀 英語到印地式英語翻譯模型

本模型專注於英語到印地式英語的翻譯，通過將特定的LoRA訓練成果與llama2 - 7b和OPENHATHI - 7B - BASE進行融合，顯著提升了翻譯效果，為相關領域的應用提供了有力支持。

🚀 快速開始

你可以使用以下代碼示例，快速開啟英語到印地式英語的翻譯：

from transformers import LlamaForCausalLM, AutoTokenizer
import torch

device = "cuda:0"
tokenizer = AutoTokenizer.from_pretrained('akashgoel-id/OpenHathi-7B-English-to-Hinglish')
model = LlamaForCausalLM.from_pretrained('akashgoel-id/OpenHathi-7B-English-to-Hinglish', torch_dtype=torch.bfloat16).to(device)

PROMPT_TEMPLATE = (
    f"Translate from english to hinglish:\n{{en}}\n---\nTranslation:\n"
)
while True:
    userInput = input("Enter input: ")
    prompt = PROMPT_TEMPLATE.format(en=userInput)
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    generate_ids = model.generate(inputs.input_ids, max_length=500)
    print(tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0])

✨ 主要特性

模型融合優勢：該模型是在英語到印地式英語翻譯數據集上，由NATERAW在llama2 - 7b上訓練的LoRA與OPENHATHI - 7B - BASE進行融合的成果。由於OPENHATHI在預訓練時包含更多印地語數據，相較於llama2，其翻譯效果有顯著提升。
特定提示模板：可使用nateraw提供的提示模板 "Translate from english to hinglish:\n{{en}}\n---\nTranslation:\n" 進行翻譯操作。

📚 詳細文檔

模型詳情

這是一個將NATERAW在英語到印地式英語翻譯數據集上對llama2 - 7b訓練的LoRA與OPENHATHI - 7B - BASE進行融合的模型。由於OPENHATHI在預訓練時包含更多印地語數據，相較於llama2，其翻譯效果有顯著提升。

提示模板

你可以使用nateraw提供的提示模板： "Translate from english to hinglish:\n{{en}}\n---\nTranslation:\n"

侷限性

該模型在處理習語時仍存在一定不足：

輸入習語	模型輸出翻譯	評估
When it rains, it pours	Jab baarish hoti hai, to baarish hoti hai	此翻譯過於字面，未體現習語含義。原短語意味著當某事發生時，往往會發展到極端程度。而提供的翻譯只是簡單表述“下雨的時候，就下雨”，未抓住習語精髓。
Don't count your chickens before they hatch	Apne murgon ko ande se pahle na ginein	這是對該習語較為合理的翻譯，保留了關於不要基於不確定未來事件的假設來制定計劃的隱喻含義。
Biting off more than you can chew	Aap jo chaba sakte hain usse adhik kaatna	此翻譯捕捉到了咬和咀嚼的字面意思，但可能未完全傳達承擔一項過大或難以處理的任務的習語含義。
The ball is in your court	Gend aapke court mein hai	此翻譯有效傳達了習語的含義，即輪到別人做決定或採取行動。
Beating around the bush	Bush ke chaaron or peetna	這是一個字面翻譯，未準確捕捉到避免主要問題或不直接談論某個主題的習語含義。“Ghumaphira ke baat karna” 會更合適。