Iris 7b
I
Iris 7b
由 davidkim205 开发
Iris是基于深度学习的韩英句子互译模型,通过先进自然语言处理技术实现高质量翻译。
下载量 716
发布时间 : 3/25/2024
模型简介
Iris是一个专注于韩语和英语互译的深度学习模型,能够深入理解两种语言的语法、词汇及上下文语境,生成精准的翻译结果。
模型特点
高质量翻译
通过先进的自然语言处理技术实现韩语和英语之间的高质量互译。
上下文理解
能够深入理解两种语言的语法、词汇及上下文语境,生成精准的翻译结果。
多样化应用
适用于多种应用场景,包括技术文档、日常对话等。
模型能力
韩语到英语翻译
英语到韩语翻译
上下文感知翻译
使用案例
技术翻译
技术文档翻译
将技术文档从韩语翻译成英语或反之。
高质量的技术术语翻译
日常翻译
日常对话翻译
将日常对话从韩语翻译成英语或反之。
自然的语言表达
🚀 鸢尾花(Iris)模型
鸢尾花(Iris)是一款基于深度学习的韩英句子翻译模型。它借助先进的自然语言处理技术,实现韩语句子到英语或英语句子到韩语的翻译。该模型经过训练,能够理解每种语言的语法、词汇和上下文,并生成合适的翻译结果。鸢尾花模型提供高效准确的翻译服务,可应用于多种场景。
🚀 快速开始
代码示例
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
repo = "davidkim205/iris-7b"
model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=torch.bfloat16, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained(repo)
def generate(prompt):
encoding = tokenizer(
prompt,
return_tensors='pt',
return_token_type_ids=False
).to("cuda")
gen_tokens = model.generate(
**encoding,
max_new_tokens=2048,
temperature=1.0,
num_beams=5,
)
prompt_end_size = encoding.input_ids.shape[1]
result = tokenizer.decode(gen_tokens[0, prompt_end_size:])
return result
def translate_ko2en(text):
prompt = f"[INST] 다음 문장을 영어로 번역하세요.{text} [/INST]"
return generate(prompt)
def translate_en2ko(text):
prompt = f"[INST] 다음 문장을 한글로 번역하세요.{text} [/INST]"
return generate(prompt)
def main():
while True:
text = input('>')
en_text = translate_ko2en(text)
ko_text = translate_en2ko(en_text)
print('en_text', en_text)
print('ko_text', ko_text)
if __name__ == "__main__":
main()
输出示例
$ python iris_test.py
Downloading shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 4.72it/s]
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00, 1.07it/s]
>아이리스는 딥러닝을 기반으로 한 한-영어 문장 번역을 위한 모델이다.
en_text Iris is a model for Korean-to-English sentence translation based on deep learning.</s>
ko_text 아이리스는 딥러닝을 기반으로 한 한국어-영어 문장 번역을 위한 모델이다.</s>
✨ 主要特性
- 基于深度学习技术,实现韩英句子的双向翻译。
- 能够理解语言的语法、词汇和上下文,生成准确的翻译结果。
- 可应用于多种场景,提供高效的翻译服务。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
基础用法
# 保持原始代码和注释不变
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
repo = "davidkim205/iris-7b"
model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=torch.bfloat16, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained(repo)
# 其他代码保持不变
高级用法
文档未提供高级用法代码示例,暂不展示。
📚 详细文档
模型详情
属性 | 详情 |
---|---|
模型开发者 | davidkim(changyeon kim) |
仓库地址 | 即将更新 |
基础模型 | mistralai/Mistral - 7B - v0.2 |
训练数据集 | translation_v3_346k |
模板
韩语到英语
[INST] 다음 문장을 영어로 번역하세요.{text} [/INST]
英语到韩语
"[INST] 다음 문장을 한글로 번역하세요.{text} [/INST]"
数据集信息:translation_v3_346k
由于许可问题,该数据集未公开。
来源 | 占比 | 描述 |
---|---|---|
aihub - MTPE | 5.56% | 机器翻译质量事后验证数据集 |
aihub - techsci2 | 5.56% | ICT、电气/电子等技术科学领域韩英翻译数据集 |
aihub - expertise | 5.56% | 医疗、金融、体育等专业领域韩英翻译数据集 |
aihub - humanities | 5.56% | 人文学领域韩英翻译数据集 |
sharegpt - deepl - ko - translation | 5.56% | 将shareGPT数据集从问答格式转换为韩英翻译格式的数据集 |
aihub - MT - new - corpus | 5.56% | 机器翻译应用构建用韩英翻译数据集 |
aihub - socialsci | 5.56% | 法律、教育、经济等社会科学领域韩英翻译数据集 |
korean - parallel - corpora | 5.56% | 韩英翻译平行数据集 |
aihub - parallel - translation | 5.56% | 话语类型及领域별韩英翻译数据集 |
aihub - food | 5.56% | 食品领域英韩翻译数据集 |
aihub - techsci | 5.56% | ICT、电气/电子等技术科学领域韩英翻译数据集 |
para_pat | 5.56% | ParaPat数据集的英语 - 韩语子集 |
aihub - speechtype - based - machine - translation | 5.56% | 话语类型별英韩翻译数据集 |
koopus100 | 5.56% | OPUS - 100数据集的英语 - 韩语子集 |
aihub - basicsci | 5.56% | 数学、物理学等基础科学领域韩英翻译数据集 |
aihub - broadcast - content | 5.56% | 广播内容领域韩英翻译数据集 |
aihub - patent | 5.56% | 专利说明书英韩翻译数据集 |
aihub - colloquial | 5.56% | 包含新词、缩写等的口语体韩英翻译数据集 |
有关AI Hub许可信息,请参考以下链接: AI Hub许可信息
评估
评估代码仓库:https://github.com/davidkim205/translation
类型 | 模型 | BLEU | SBLEU | 重复率 | 长度超出 |
---|---|---|---|---|---|
HuggingFace | facebook/nllb - 200 - distilled - 1.3B | 0.26 | 0.30 | 1 | 3 |
HuggingFace | jbochi/madlad400 - 10b - mt | 0.29 | 0.38 | 3 | 6 |
HuggingFace | Unbabel/TowerInstruct - 7B - v0.1 | 0.32 | 0.39 | 1 | 9 |
HuggingFace | squarelike/Gugugo - koen - 7B - V1.1 | 0.32 | 0.36 | 1 | 3 |
HuggingFace | maywell/Synatra - 7B - v0.3 - Translation | 0.35 | 0.41 | 1 | 2 |
云服务 | deepl | 0.39 | 0.45 | 0 | 1 |
云服务 | azure | 0.40 | 0.49 | 0 | 3 |
云服务 | 0.40 | 0.49 | 0 | 2 | |
云服务 | papago | 0.43 | 0.51 | 0 | 3 |
HuggingFace | davidkim205/iris - 7b (我们的模型) | 0.40 | 0.43 | 0 | 3 |
🔧 技术细节
文档未提供具体技术细节,暂不展示。
📄 许可证
本项目采用Apache - 2.0许可证。
M2m100 418M
MIT
M2M100是一个多语言编码器-解码器模型,支持100种语言的9900个翻译方向
机器翻译 支持多种语言
M
facebook
1.6M
299
Opus Mt Fr En
Apache-2.0
基于Transformer的法语到英语神经机器翻译模型,由Helsinki-NLP团队开发,采用OPUS多语数据集训练。
机器翻译 支持多种语言
O
Helsinki-NLP
1.2M
44
Opus Mt Ar En
Apache-2.0
基于OPUS数据训练的阿拉伯语到英语的机器翻译模型,采用transformer-align架构
机器翻译 支持多种语言
O
Helsinki-NLP
579.41k
42
M2m100 1.2B
MIT
M2M100是一个支持100种语言的多语言机器翻译模型,可直接在9900个翻译方向之间进行翻译。
机器翻译 支持多种语言
M
facebook
501.82k
167
Indictrans2 Indic En 1B
MIT
支持25种印度语言与英语互译的1.1B参数规模机器翻译模型,由AI4Bharat项目开发
机器翻译
Transformers 支持多种语言

I
ai4bharat
473.63k
14
Opus Mt En Zh
Apache-2.0
基于Transformer架构的英汉多方言翻译模型,支持英语到13种汉语变体的翻译任务
机器翻译 支持多种语言
O
Helsinki-NLP
442.08k
367
Opus Mt Zh En
由赫尔辛基大学开发的基于OPUS语料库的中文到英语机器翻译模型
机器翻译 支持多种语言
O
Helsinki-NLP
441.24k
505
Mbart Large 50 Many To Many Mmt
基于mBART-large-50微调的多语言机器翻译模型,支持50种语言间的互译
机器翻译 支持多种语言
M
facebook
404.66k
357
Opus Mt De En
Apache-2.0
opus-mt-de-en 是一个基于 transformer-align 架构的德语到英语的机器翻译模型,由 Helsinki-NLP 团队开发。
机器翻译 支持多种语言
O
Helsinki-NLP
404.33k
44
Opus Mt Es En
Apache-2.0
这是一个基于Transformer架构的西班牙语到英语的机器翻译模型,由Helsinki-NLP团队开发。
机器翻译
Transformers 支持多种语言

O
Helsinki-NLP
385.40k
71
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98