OpenHathi-7B-English-to-Hinglish开源翻译模型 - 优化印地语质量，免费部署英语转印度英语

首页

Openhathi 7B English To Hinglish

由 akashgoel-id 开发

基于llama2-7b和OPENHATHI-7B-BASE融合的英语-印度英语翻译模型，特别优化了印地语翻译质量

机器翻译

Transformers

支持多种语言#英语-印度英语翻译 #LoRA微调优化 #印地语增强

下载量 110

发布时间 : 12/17/2023

模型简介

该模型专注于英语到印度英语（Hinglish）的翻译任务，通过LoRA模块融合两种架构优势，在印地语翻译场景表现优异

模型特点

双语混合优化

结合llama2和OPENHATHI的优势，特别针对印地语翻译场景优化

LoRA模块融合

通过LoRA技术高效融合两种模型架构

文化适应性

能较好处理英语到印度英语的文化语境转换

模型能力

英语到印度英语翻译

双语文本生成

文化语境转换

使用案例

跨文化交流

商务沟通翻译

将英语商务文件翻译为印度英语版本

保留专业术语同时适应本地表达习惯

社交媒体内容本地化

将英语社交媒体内容转换为印度英语

增强印度用户的接受度和参与度

🚀 英语到印地式英语翻译模型

本模型专注于英语到印地式英语的翻译，通过将特定的LoRA训练成果与llama2 - 7b和OPENHATHI - 7B - BASE进行融合，显著提升了翻译效果，为相关领域的应用提供了有力支持。

🚀 快速开始

你可以使用以下代码示例，快速开启英语到印地式英语的翻译：

from transformers import LlamaForCausalLM, AutoTokenizer
import torch

device = "cuda:0"
tokenizer = AutoTokenizer.from_pretrained('akashgoel-id/OpenHathi-7B-English-to-Hinglish')
model = LlamaForCausalLM.from_pretrained('akashgoel-id/OpenHathi-7B-English-to-Hinglish', torch_dtype=torch.bfloat16).to(device)

PROMPT_TEMPLATE = (
    f"Translate from english to hinglish:\n{{en}}\n---\nTranslation:\n"
)
while True:
    userInput = input("Enter input: ")
    prompt = PROMPT_TEMPLATE.format(en=userInput)
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    generate_ids = model.generate(inputs.input_ids, max_length=500)
    print(tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0])

✨ 主要特性

模型融合优势：该模型是在英语到印地式英语翻译数据集上，由NATERAW在llama2 - 7b上训练的LoRA与OPENHATHI - 7B - BASE进行融合的成果。由于OPENHATHI在预训练时包含更多印地语数据，相较于llama2，其翻译效果有显著提升。
特定提示模板：可使用nateraw提供的提示模板 "Translate from english to hinglish:\n{{en}}\n---\nTranslation:\n" 进行翻译操作。

📚 详细文档

模型详情

这是一个将NATERAW在英语到印地式英语翻译数据集上对llama2 - 7b训练的LoRA与OPENHATHI - 7B - BASE进行融合的模型。由于OPENHATHI在预训练时包含更多印地语数据，相较于llama2，其翻译效果有显著提升。

提示模板

你可以使用nateraw提供的提示模板： "Translate from english to hinglish:\n{{en}}\n---\nTranslation:\n"

局限性

该模型在处理习语时仍存在一定不足：

输入习语	模型输出翻译	评估
When it rains, it pours	Jab baarish hoti hai, to baarish hoti hai	此翻译过于字面，未体现习语含义。原短语意味着当某事发生时，往往会发展到极端程度。而提供的翻译只是简单表述“下雨的时候，就下雨”，未抓住习语精髓。
Don't count your chickens before they hatch	Apne murgon ko ande se pahle na ginein	这是对该习语较为合理的翻译，保留了关于不要基于不确定未来事件的假设来制定计划的隐喻含义。
Biting off more than you can chew	Aap jo chaba sakte hain usse adhik kaatna	此翻译捕捉到了咬和咀嚼的字面意思，但可能未完全传达承担一项过大或难以处理的任务的习语含义。
The ball is in your court	Gend aapke court mein hai	此翻译有效传达了习语的含义，即轮到别人做决定或采取行动。
Beating around the bush	Bush ke chaaron or peetna	这是一个字面翻译，未准确捕捉到避免主要问题或不直接谈论某个主题的习语含义。“Ghumaphira ke baat karna” 会更合适。