Llama3 Instructrans Enko 8b
基于Llama-3-8B-it训练的英韩翻译模型,专门用于英语指令数据集的翻译
下载量 84
发布时间 : 5/13/2024
模型简介
该模型是在英韩翻译数据集上微调的Llama-3-8B-it版本,专注于英语到韩语的指令翻译任务
模型特点
高质量英韩翻译
在多个英韩翻译基准测试中表现优异
指令理解
能够理解并执行翻译指令
长文本处理
支持最大4096 tokens的长文本翻译
模型能力
英语到韩语翻译
韩语到英语翻译
指令理解与执行
长文本处理
使用案例
翻译服务
技术文档翻译
将英语技术文档翻译为韩语
在技术类文本翻译评估中表现优异
新闻翻译
英语新闻内容翻译为韩语
在新闻文本翻译评估中得分领先
教育
学习辅助
帮助韩语学习者理解英语材料
🚀 instructTrans
instructTrans 是一个基于 Llama-3-8B-it 模型在英韩翻译数据集上微调得到的模型,能够高效地将英文指令数据集翻译成韩语,为英韩翻译任务提供了强大的支持。
🚀 快速开始
加载模型
使用以下 Python 代码加载模型:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nayohan/llama3-instrucTrans-enko-8b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype=torch.bfloat16
)
生成文本
该模型支持从英语到韩语的翻译。要翻译文本,请使用以下 Python 代码:
system_prompt="당신은 번역기 입니다. 영어를 한국어로 번역하세요."
sentence = "The aerospace industry is a flower in the field of technology and science."
conversation = [{'role': 'system', 'content': system_prompt},
{'role': 'user', 'content': sentence}]
inputs = tokenizer.apply_chat_template(
conversation,
tokenize=True,
add_generation_prompt=True,
return_tensors='pt'
).to("cuda")
outputs = model.generate(inputs, max_new_tokens=4096) # Finetuned with length 4096
print(tokenizer.decode(outputs[0][len(inputs[0]):]))
✨ 主要特性
- 基于 Llama-3-8B-it:以强大的 Llama-3-8B-it 为基础模型,具备优秀的语言理解和生成能力。
- 特定领域训练:在英韩翻译数据集上进行训练,专注于英语到韩语的翻译任务,提高翻译的准确性和专业性。
- 多数据集支持:使用多个英韩翻译数据集进行训练,包括 nayohan/aihub-en-ko-translation-1.2m 和 nayohan/translate_corpus_313k,确保模型的泛化能力。
📦 安装指南
文档未提及安装相关内容,可参考 Hugging Face 上的模型页面获取更多安装信息。
💻 使用示例
基础用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nayohan/llama3-instrucTrans-enko-8b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype=torch.bfloat16
)
system_prompt="당신은 번역기 입니다. 영어를 한국어로 번역하세요."
sentence = "The aerospace industry is a flower in the field of technology and science."
conversation = [{'role': 'system', 'content': system_prompt},
{'role': 'user', 'content': sentence}]
inputs = tokenizer.apply_chat_template(
conversation,
tokenize=True,
add_generation_prompt=True,
return_tensors='pt'
).to("cuda")
outputs = model.generate(inputs, max_new_tokens=4096)
print(tokenizer.decode(outputs[0][len(inputs[0]):]))
高级用法
# 可以根据具体需求调整系统提示和输入句子,以实现更复杂的翻译任务
system_prompt="당신은 번역기 입니다. 영어를 한국어로 번역하세요. 번역은 자연스럽고 정확하게 이루어져야 합니다."
sentence = "The aerospace industry is a flower in the field of technology and science. It represents the highest level of human innovation and technological prowess."
conversation = [{'role': 'system', 'content': system_prompt},
{'role': 'user', 'content': sentence}]
inputs = tokenizer.apply_chat_template(
conversation,
tokenize=True,
add_generation_prompt=True,
return_tensors='pt'
).to("cuda")
outputs = model.generate(inputs, max_new_tokens=4096)
print(tokenizer.decode(outputs[0][len(inputs[0]):]))
📚 详细文档
评估结果
为了评估英语到韩语的翻译性能,选择了以下数据集进行评估:
- 评估数据集出处
- Aihub/FLoRes: traintogpb/aihub-flores-koen-integrated-sparta-30k | (测试集 1k)
- iwslt-2023: shreevigneshs/iwslt-2023-en-ko-train-val-split-0.1 | (f_test 597, if_test 597)
- ko_news_2024: nayohan/ko_news_eval40 | (40)
- 模型评估方法
- 每个模型都基于 Hugging Face 上 ReadMe 中记录的推理代码进行推理。(共同参数:max_new_tokens=512)
- EEVE 在系统提示中添加了指令("당신은 번역기 입니다. 영어를 한국어로 번역하세요."),KULLM3 保留了原系统提示,并在用户输入的最前面添加了该指令。
各数据集评估结果
Aihub 英韩翻译数据集评估
- Aihub 评估数据集 可能已包含在模型的训练数据集中。请仅将其用作查看各分类性能的参考。[分类说明链接]
| 模型 | aihub-111 | aihub-124 | aihub-125 | aihub-126 | aihub-563 | aihub-71265 | aihub-71266 | aihub-71382 | 平均 | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | EEVE-10.8b-it | 6.15 | 11.81 | 5.78 | 4.99 | 6.31 | 10.99 | 9.41 | 6.44 | 7.73 | | KULLM3 | 9.00 | 13.49 | 10.43 | 5.90 | 1.92 | 16.37 | 10.02 | 8.39 | 9.44 | | Seagull-13B | 9.8 | 18.38 | 8.51 | 5.53 | 8.74 | 17.44 | 10.11 | 11.21 | 11.21 | | Synatra-7B | 6.99 | 25.14 | 7.79 | 5.31 | 9.95 | 19.27 | 13.20 | 8.93 | 12.07 | | nhndq-nllb | 24.09 | 48.71 | 22.89 | 13.98 | 18.71 | 30.18 | 32.49 | 18.62 | 26.20 | | our-tech | 20.19 | 37.48 | 18.50 | 12.45 | 16.96 | 13.92 | 43.54 | 9.62 | 21.58 | | our-general | 24.72 | 45.22 | 21.61 | 18.97 | 17.23 | 30.00 | 32.08 | 13.55 | 25.42 | | our-sharegpt | 12.42 | 19.23 | 10.91 | 9.18 | 14.30 | 26.43 | 12.62 | 15.57 | 15.08 | | our-instrucTrans | 24.89 | 47.00 | 22.78 | 21.78 | 24.27 | 27.98 | 31.31 | 15.42 | 26.92 |
FLoRes 英韩翻译数据集评估
FloRes 是 Facebook 公开的英语和 200 种低资源语言的并行翻译基准数据集。使用 traintogpb/aihub-flores-koen-integrated-sparta-30k 进行评估(单句结构)。
模型 | flores-dev | flores-devtest | 平均 |
---|---|---|---|
EEVE-10.8b-it | 10.99 | 11.71 | 11.35 |
KULLM3 | 12.83 | 13.23 | 13.03 |
Seagull-13B | 11.48 | 11.99 | 11.73 |
Synatra-7B | 10.98 | 10.81 | 10.89 |
nhndq-nllb | 12.79 | 15.15 | 13.97 |
our-tech | 12.14 | 12.04 | 12.09 |
our-general | 14.93 | 14.58 | 14.75 |
our-sharegpt | 14.71 | 16.69 | 15.70 |
our-instrucTrans | 14.49 | 17.69 | 16.09 |
iwslt-2023
iwslt-2023 数据集 由相同的英语句子分别用韩语的半语和敬语构成评估数据集。可以相对地确认模型的敬语/半语倾向(单句结构)。
模型 | iwslt_zondae | iwslt_banmal | 平均 |
---|---|---|---|
EEVE-10.8b-it | 4.62 | 3.79 | 4.20 |
KULLM3 | 5.94 | 5.24 | 5.59 |
Seagull-13B | 6.14 | 4.54 | 5.34 |
Synatra-7B | 5.43 | 4.73 | 5.08 |
nhndq-nllb | 8.36 | 7.44 | 7.90 |
our-tech | 3.99 | 3.95 | 3.97 |
our-general | 7.33 | 6.18 | 6.75 |
our-sharegpt | 7.83 | 6.35 | 7.09 |
our-instrucTrans | 8.63 | 6.97 | 7.80 |
ko_news_eval40
ko_news_eval40 数据集 是为了在未训练过的新数据集上进行评估,于 2024 年 5 月从各分类(4 类)新闻中各收集 10 篇文章的部分段落,并使用 GPT4 进行翻译后构成的。用于评估模型将英语翻译成日常新闻中使用的韩语的能力(段落结构)。
模型 | IT/科学 | 经济 | 社会 | 观点 | 平均 |
---|---|---|---|---|---|
EEVE-10.8b-it | 9.03 | 6.42 | 5.56 | 5.10 | 6.52 |
KULLM3 | 9.82 | 5.26 | 3.48 | 7.48 | 6.51 |
Seagull-13B | 7.41 | 6.78 | 4.76 | 4.85 | 5.95 |
Synatra-7B | 11.44 | 5.59 | 4.57 | 6.31 | 6.97 |
nhndq-nllb | 11.97 | 11.12 | 6.14 | 5.28 | 8.62 |
our-tech | 10.45 | 9.98 | 5.13 | 10.15 | 8.92 |
our-general | 16.22 | 10.61 | 8.51 | 7.33 | 10.66 |
our-sharegpt | 12.71 | 8.06 | 7.70 | 6.43 | 8.72 |
our-instrucTrans | 20.42 | 12.77 | 11.40 | 10.31 | 13.72 |
平均结果
模型 | aihub | flores | iwslt | news | 平均 |
---|---|---|---|---|---|
EEVE-10.8b-it | 7.73 | 11.35 | 4.20 | 6.52 | 7.45 |
KULLM3 | 9.44 | 13.03 | 5.59 | 6.51 | 8.64 |
Seagull-13B | 11.21 | 11.73 | 5.34 | 5.95 | 8.56 |
Synatra-7B | 12.07 | 10.89 | 5.08 | 6.97 | 8.75 |
nhndq-nllb | 26.20 | 13.97 | 7.90 | 8.62 | 14.17 |
our-tech | 21.58 | 12.09 | 3.97 | 8.92 | 11.64 |
our-general | 25.42 | 14.75 | 6.75 | 10.66 | 14.40 |
our-sharegpt | 15.08 | 15.70 | 7.09 | 8.72 | 11.64 |
our-instrucTrans | 26.92 | 16.09 | 7.80 | 13.72 | 16.13 |
引用
@article{InstrcTrans8b,
title={llama3-instrucTrans-enko-8b},
author={Na, Yohan},
year={2024},
url={https://huggingface.co/nayohan/llama3-instrucTrans-enko-8b}
}
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url={https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}
🔧 技术细节
文档未提供详细的技术实现细节。
📄 许可证
该模型使用 llama3 许可证。
M2m100 418M
MIT
M2M100是一个多语言编码器-解码器模型,支持100种语言的9900个翻译方向
机器翻译 支持多种语言
M
facebook
1.6M
299
Opus Mt Fr En
Apache-2.0
基于Transformer的法语到英语神经机器翻译模型,由Helsinki-NLP团队开发,采用OPUS多语数据集训练。
机器翻译 支持多种语言
O
Helsinki-NLP
1.2M
44
Opus Mt Ar En
Apache-2.0
基于OPUS数据训练的阿拉伯语到英语的机器翻译模型,采用transformer-align架构
机器翻译 支持多种语言
O
Helsinki-NLP
579.41k
42
M2m100 1.2B
MIT
M2M100是一个支持100种语言的多语言机器翻译模型,可直接在9900个翻译方向之间进行翻译。
机器翻译 支持多种语言
M
facebook
501.82k
167
Indictrans2 Indic En 1B
MIT
支持25种印度语言与英语互译的1.1B参数规模机器翻译模型,由AI4Bharat项目开发
机器翻译
Transformers 支持多种语言

I
ai4bharat
473.63k
14
Opus Mt En Zh
Apache-2.0
基于Transformer架构的英汉多方言翻译模型,支持英语到13种汉语变体的翻译任务
机器翻译 支持多种语言
O
Helsinki-NLP
442.08k
367
Opus Mt Zh En
由赫尔辛基大学开发的基于OPUS语料库的中文到英语机器翻译模型
机器翻译 支持多种语言
O
Helsinki-NLP
441.24k
505
Mbart Large 50 Many To Many Mmt
基于mBART-large-50微调的多语言机器翻译模型,支持50种语言间的互译
机器翻译 支持多种语言
M
facebook
404.66k
357
Opus Mt De En
Apache-2.0
opus-mt-de-en 是一个基于 transformer-align 架构的德语到英语的机器翻译模型,由 Helsinki-NLP 团队开发。
机器翻译 支持多种语言
O
Helsinki-NLP
404.33k
44
Opus Mt Es En
Apache-2.0
这是一个基于Transformer架构的西班牙语到英语的机器翻译模型,由Helsinki-NLP团队开发。
机器翻译
Transformers 支持多种语言

O
Helsinki-NLP
385.40k
71
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98