Llama3 Instructrans Enko 8b
基於Llama-3-8B-it訓練的英韓翻譯模型,專門用於英語指令數據集的翻譯
下載量 84
發布時間 : 5/13/2024
模型概述
該模型是在英韓翻譯數據集上微調的Llama-3-8B-it版本,專注於英語到韓語的指令翻譯任務
模型特點
高質量英韓翻譯
在多個英韓翻譯基準測試中表現優異
指令理解
能夠理解並執行翻譯指令
長文本處理
支持最大4096 tokens的長文本翻譯
模型能力
英語到韓語翻譯
韓語到英語翻譯
指令理解與執行
長文本處理
使用案例
翻譯服務
技術文檔翻譯
將英語技術文檔翻譯為韓語
在技術類文本翻譯評估中表現優異
新聞翻譯
英語新聞內容翻譯為韓語
在新聞文本翻譯評估中得分領先
教育
學習輔助
幫助韓語學習者理解英語材料
🚀 instructTrans
instructTrans 是一個基於 Llama-3-8B-it 模型在英韓翻譯數據集上微調得到的模型,能夠高效地將英文指令數據集翻譯成韓語,為英韓翻譯任務提供了強大的支持。
🚀 快速開始
加載模型
使用以下 Python 代碼加載模型:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nayohan/llama3-instrucTrans-enko-8b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype=torch.bfloat16
)
生成文本
該模型支持從英語到韓語的翻譯。要翻譯文本,請使用以下 Python 代碼:
system_prompt="당신은 번역기 입니다. 영어를 한국어로 번역하세요."
sentence = "The aerospace industry is a flower in the field of technology and science."
conversation = [{'role': 'system', 'content': system_prompt},
{'role': 'user', 'content': sentence}]
inputs = tokenizer.apply_chat_template(
conversation,
tokenize=True,
add_generation_prompt=True,
return_tensors='pt'
).to("cuda")
outputs = model.generate(inputs, max_new_tokens=4096) # Finetuned with length 4096
print(tokenizer.decode(outputs[0][len(inputs[0]):]))
✨ 主要特性
- 基於 Llama-3-8B-it:以強大的 Llama-3-8B-it 為基礎模型,具備優秀的語言理解和生成能力。
- 特定領域訓練:在英韓翻譯數據集上進行訓練,專注於英語到韓語的翻譯任務,提高翻譯的準確性和專業性。
- 多數據集支持:使用多個英韓翻譯數據集進行訓練,包括 nayohan/aihub-en-ko-translation-1.2m 和 nayohan/translate_corpus_313k,確保模型的泛化能力。
📦 安裝指南
文檔未提及安裝相關內容,可參考 Hugging Face 上的模型頁面獲取更多安裝信息。
💻 使用示例
基礎用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nayohan/llama3-instrucTrans-enko-8b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype=torch.bfloat16
)
system_prompt="당신은 번역기 입니다. 영어를 한국어로 번역하세요."
sentence = "The aerospace industry is a flower in the field of technology and science."
conversation = [{'role': 'system', 'content': system_prompt},
{'role': 'user', 'content': sentence}]
inputs = tokenizer.apply_chat_template(
conversation,
tokenize=True,
add_generation_prompt=True,
return_tensors='pt'
).to("cuda")
outputs = model.generate(inputs, max_new_tokens=4096)
print(tokenizer.decode(outputs[0][len(inputs[0]):]))
高級用法
# 可以根據具體需求調整系統提示和輸入句子,以實現更復雜的翻譯任務
system_prompt="당신은 번역기 입니다. 영어를 한국어로 번역하세요. 번역은 자연스럽고 정확하게 이루어져야 합니다."
sentence = "The aerospace industry is a flower in the field of technology and science. It represents the highest level of human innovation and technological prowess."
conversation = [{'role': 'system', 'content': system_prompt},
{'role': 'user', 'content': sentence}]
inputs = tokenizer.apply_chat_template(
conversation,
tokenize=True,
add_generation_prompt=True,
return_tensors='pt'
).to("cuda")
outputs = model.generate(inputs, max_new_tokens=4096)
print(tokenizer.decode(outputs[0][len(inputs[0]):]))
📚 詳細文檔
評估結果
為了評估英語到韓語的翻譯性能,選擇了以下數據集進行評估:
- 評估數據集出處
- Aihub/FLoRes: traintogpb/aihub-flores-koen-integrated-sparta-30k | (測試集 1k)
- iwslt-2023: shreevigneshs/iwslt-2023-en-ko-train-val-split-0.1 | (f_test 597, if_test 597)
- ko_news_2024: nayohan/ko_news_eval40 | (40)
- 模型評估方法
- 每個模型都基於 Hugging Face 上 ReadMe 中記錄的推理代碼進行推理。(共同參數:max_new_tokens=512)
- EEVE 在系統提示中添加了指令("당신은 번역기 입니다. 영어를 한국어로 번역하세요."),KULLM3 保留了原系統提示,並在用戶輸入的最前面添加了該指令。
各數據集評估結果
Aihub 英韓翻譯數據集評估
- Aihub 評估數據集 可能已包含在模型的訓練數據集中。請僅將其用作查看各分類性能的參考。[分類說明鏈接]
| 模型 | aihub-111 | aihub-124 | aihub-125 | aihub-126 | aihub-563 | aihub-71265 | aihub-71266 | aihub-71382 | 平均 | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | EEVE-10.8b-it | 6.15 | 11.81 | 5.78 | 4.99 | 6.31 | 10.99 | 9.41 | 6.44 | 7.73 | | KULLM3 | 9.00 | 13.49 | 10.43 | 5.90 | 1.92 | 16.37 | 10.02 | 8.39 | 9.44 | | Seagull-13B | 9.8 | 18.38 | 8.51 | 5.53 | 8.74 | 17.44 | 10.11 | 11.21 | 11.21 | | Synatra-7B | 6.99 | 25.14 | 7.79 | 5.31 | 9.95 | 19.27 | 13.20 | 8.93 | 12.07 | | nhndq-nllb | 24.09 | 48.71 | 22.89 | 13.98 | 18.71 | 30.18 | 32.49 | 18.62 | 26.20 | | our-tech | 20.19 | 37.48 | 18.50 | 12.45 | 16.96 | 13.92 | 43.54 | 9.62 | 21.58 | | our-general | 24.72 | 45.22 | 21.61 | 18.97 | 17.23 | 30.00 | 32.08 | 13.55 | 25.42 | | our-sharegpt | 12.42 | 19.23 | 10.91 | 9.18 | 14.30 | 26.43 | 12.62 | 15.57 | 15.08 | | our-instrucTrans | 24.89 | 47.00 | 22.78 | 21.78 | 24.27 | 27.98 | 31.31 | 15.42 | 26.92 |
FLoRes 英韓翻譯數據集評估
FloRes 是 Facebook 公開的英語和 200 種低資源語言的並行翻譯基準數據集。使用 traintogpb/aihub-flores-koen-integrated-sparta-30k 進行評估(單句結構)。
模型 | flores-dev | flores-devtest | 平均 |
---|---|---|---|
EEVE-10.8b-it | 10.99 | 11.71 | 11.35 |
KULLM3 | 12.83 | 13.23 | 13.03 |
Seagull-13B | 11.48 | 11.99 | 11.73 |
Synatra-7B | 10.98 | 10.81 | 10.89 |
nhndq-nllb | 12.79 | 15.15 | 13.97 |
our-tech | 12.14 | 12.04 | 12.09 |
our-general | 14.93 | 14.58 | 14.75 |
our-sharegpt | 14.71 | 16.69 | 15.70 |
our-instrucTrans | 14.49 | 17.69 | 16.09 |
iwslt-2023
iwslt-2023 數據集 由相同的英語句子分別用韓語的半語和敬語構成評估數據集。可以相對地確認模型的敬語/半語傾向(單句結構)。
模型 | iwslt_zondae | iwslt_banmal | 平均 |
---|---|---|---|
EEVE-10.8b-it | 4.62 | 3.79 | 4.20 |
KULLM3 | 5.94 | 5.24 | 5.59 |
Seagull-13B | 6.14 | 4.54 | 5.34 |
Synatra-7B | 5.43 | 4.73 | 5.08 |
nhndq-nllb | 8.36 | 7.44 | 7.90 |
our-tech | 3.99 | 3.95 | 3.97 |
our-general | 7.33 | 6.18 | 6.75 |
our-sharegpt | 7.83 | 6.35 | 7.09 |
our-instrucTrans | 8.63 | 6.97 | 7.80 |
ko_news_eval40
ko_news_eval40 數據集 是為了在未訓練過的新數據集上進行評估,於 2024 年 5 月從各分類(4 類)新聞中各收集 10 篇文章的部分段落,並使用 GPT4 進行翻譯後構成的。用於評估模型將英語翻譯成日常新聞中使用的韓語的能力(段落結構)。
模型 | IT/科學 | 經濟 | 社會 | 觀點 | 平均 |
---|---|---|---|---|---|
EEVE-10.8b-it | 9.03 | 6.42 | 5.56 | 5.10 | 6.52 |
KULLM3 | 9.82 | 5.26 | 3.48 | 7.48 | 6.51 |
Seagull-13B | 7.41 | 6.78 | 4.76 | 4.85 | 5.95 |
Synatra-7B | 11.44 | 5.59 | 4.57 | 6.31 | 6.97 |
nhndq-nllb | 11.97 | 11.12 | 6.14 | 5.28 | 8.62 |
our-tech | 10.45 | 9.98 | 5.13 | 10.15 | 8.92 |
our-general | 16.22 | 10.61 | 8.51 | 7.33 | 10.66 |
our-sharegpt | 12.71 | 8.06 | 7.70 | 6.43 | 8.72 |
our-instrucTrans | 20.42 | 12.77 | 11.40 | 10.31 | 13.72 |
平均結果
模型 | aihub | flores | iwslt | news | 平均 |
---|---|---|---|---|---|
EEVE-10.8b-it | 7.73 | 11.35 | 4.20 | 6.52 | 7.45 |
KULLM3 | 9.44 | 13.03 | 5.59 | 6.51 | 8.64 |
Seagull-13B | 11.21 | 11.73 | 5.34 | 5.95 | 8.56 |
Synatra-7B | 12.07 | 10.89 | 5.08 | 6.97 | 8.75 |
nhndq-nllb | 26.20 | 13.97 | 7.90 | 8.62 | 14.17 |
our-tech | 21.58 | 12.09 | 3.97 | 8.92 | 11.64 |
our-general | 25.42 | 14.75 | 6.75 | 10.66 | 14.40 |
our-sharegpt | 15.08 | 15.70 | 7.09 | 8.72 | 11.64 |
our-instrucTrans | 26.92 | 16.09 | 7.80 | 13.72 | 16.13 |
引用
@article{InstrcTrans8b,
title={llama3-instrucTrans-enko-8b},
author={Na, Yohan},
year={2024},
url={https://huggingface.co/nayohan/llama3-instrucTrans-enko-8b}
}
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url={https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}
🔧 技術細節
文檔未提供詳細的技術實現細節。
📄 許可證
該模型使用 llama3 許可證。
M2m100 418M
MIT
M2M100是一個多語言編碼器-解碼器模型,支持100種語言的9900個翻譯方向
機器翻譯 支持多種語言
M
facebook
1.6M
299
Opus Mt Fr En
Apache-2.0
基於Transformer的法語到英語神經機器翻譯模型,由Helsinki-NLP團隊開發,採用OPUS多語數據集訓練。
機器翻譯 支持多種語言
O
Helsinki-NLP
1.2M
44
Opus Mt Ar En
Apache-2.0
基於OPUS數據訓練的阿拉伯語到英語的機器翻譯模型,採用transformer-align架構
機器翻譯 支持多種語言
O
Helsinki-NLP
579.41k
42
M2m100 1.2B
MIT
M2M100是一個支持100種語言的多語言機器翻譯模型,可直接在9900個翻譯方向之間進行翻譯。
機器翻譯 支持多種語言
M
facebook
501.82k
167
Indictrans2 Indic En 1B
MIT
支持25種印度語言與英語互譯的1.1B參數規模機器翻譯模型,由AI4Bharat項目開發
機器翻譯
Transformers 支持多種語言

I
ai4bharat
473.63k
14
Opus Mt En Zh
Apache-2.0
基於Transformer架構的英漢多方言翻譯模型,支持英語到13種漢語變體的翻譯任務
機器翻譯 支持多種語言
O
Helsinki-NLP
442.08k
367
Opus Mt Zh En
由赫爾辛基大學開發的基於OPUS語料庫的中文到英語機器翻譯模型
機器翻譯 支持多種語言
O
Helsinki-NLP
441.24k
505
Mbart Large 50 Many To Many Mmt
基於mBART-large-50微調的多語言機器翻譯模型,支持50種語言間的互譯
機器翻譯 支持多種語言
M
facebook
404.66k
357
Opus Mt De En
Apache-2.0
opus-mt-de-en 是一個基於 transformer-align 架構的德語到英語的機器翻譯模型,由 Helsinki-NLP 團隊開發。
機器翻譯 支持多種語言
O
Helsinki-NLP
404.33k
44
Opus Mt Es En
Apache-2.0
這是一個基於Transformer架構的西班牙語到英語的機器翻譯模型,由Helsinki-NLP團隊開發。
機器翻譯
Transformers 支持多種語言

O
Helsinki-NLP
385.40k
71
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98