Iris 7b
I
Iris 7b
由davidkim205開發
Iris是基於深度學習的韓英句子互譯模型,通過先進自然語言處理技術實現高質量翻譯。
下載量 716
發布時間 : 3/25/2024
模型概述
Iris是一個專注於韓語和英語互譯的深度學習模型,能夠深入理解兩種語言的語法、詞彙及上下文語境,生成精準的翻譯結果。
模型特點
高質量翻譯
通過先進的自然語言處理技術實現韓語和英語之間的高質量互譯。
上下文理解
能夠深入理解兩種語言的語法、詞彙及上下文語境,生成精準的翻譯結果。
多樣化應用
適用於多種應用場景,包括技術文檔、日常對話等。
模型能力
韓語到英語翻譯
英語到韓語翻譯
上下文感知翻譯
使用案例
技術翻譯
技術文檔翻譯
將技術文檔從韓語翻譯成英語或反之。
高質量的技術術語翻譯
日常翻譯
日常對話翻譯
將日常對話從韓語翻譯成英語或反之。
自然的語言表達
🚀 鳶尾花(Iris)模型
鳶尾花(Iris)是一款基於深度學習的韓英句子翻譯模型。它藉助先進的自然語言處理技術,實現韓語句子到英語或英語句子到韓語的翻譯。該模型經過訓練,能夠理解每種語言的語法、詞彙和上下文,並生成合適的翻譯結果。鳶尾花模型提供高效準確的翻譯服務,可應用於多種場景。
🚀 快速開始
代碼示例
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
repo = "davidkim205/iris-7b"
model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=torch.bfloat16, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained(repo)
def generate(prompt):
encoding = tokenizer(
prompt,
return_tensors='pt',
return_token_type_ids=False
).to("cuda")
gen_tokens = model.generate(
**encoding,
max_new_tokens=2048,
temperature=1.0,
num_beams=5,
)
prompt_end_size = encoding.input_ids.shape[1]
result = tokenizer.decode(gen_tokens[0, prompt_end_size:])
return result
def translate_ko2en(text):
prompt = f"[INST] 다음 문장을 영어로 번역하세요.{text} [/INST]"
return generate(prompt)
def translate_en2ko(text):
prompt = f"[INST] 다음 문장을 한글로 번역하세요.{text} [/INST]"
return generate(prompt)
def main():
while True:
text = input('>')
en_text = translate_ko2en(text)
ko_text = translate_en2ko(en_text)
print('en_text', en_text)
print('ko_text', ko_text)
if __name__ == "__main__":
main()
輸出示例
$ python iris_test.py
Downloading shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 4.72it/s]
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00, 1.07it/s]
>아이리스는 딥러닝을 기반으로 한 한-영어 문장 번역을 위한 모델이다.
en_text Iris is a model for Korean-to-English sentence translation based on deep learning.</s>
ko_text 아이리스는 딥러닝을 기반으로 한 한국어-영어 문장 번역을 위한 모델이다.</s>
✨ 主要特性
- 基於深度學習技術,實現韓英句子的雙向翻譯。
- 能夠理解語言的語法、詞彙和上下文,生成準確的翻譯結果。
- 可應用於多種場景,提供高效的翻譯服務。
📦 安裝指南
文檔未提供具體安裝步驟,暫不展示。
💻 使用示例
基礎用法
# 保持原始代碼和註釋不變
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
repo = "davidkim205/iris-7b"
model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=torch.bfloat16, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained(repo)
# 其他代碼保持不變
高級用法
文檔未提供高級用法代碼示例,暫不展示。
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
模型開發者 | davidkim(changyeon kim) |
倉庫地址 | 即將更新 |
基礎模型 | mistralai/Mistral - 7B - v0.2 |
訓練數據集 | translation_v3_346k |
模板
韓語到英語
[INST] 다음 문장을 영어로 번역하세요.{text} [/INST]
英語到韓語
"[INST] 다음 문장을 한글로 번역하세요.{text} [/INST]"
數據集信息:translation_v3_346k
由於許可問題,該數據集未公開。
來源 | 佔比 | 描述 |
---|---|---|
aihub - MTPE | 5.56% | 機器翻譯質量事後驗證數據集 |
aihub - techsci2 | 5.56% | ICT、電氣/電子等技術科學領域韓英翻譯數據集 |
aihub - expertise | 5.56% | 醫療、金融、體育等專業領域韓英翻譯數據集 |
aihub - humanities | 5.56% | 人文學領域韓英翻譯數據集 |
sharegpt - deepl - ko - translation | 5.56% | 將shareGPT數據集從問答格式轉換為韓英翻譯格式的數據集 |
aihub - MT - new - corpus | 5.56% | 機器翻譯應用構建用韓英翻譯數據集 |
aihub - socialsci | 5.56% | 法律、教育、經濟等社會科學領域韓英翻譯數據集 |
korean - parallel - corpora | 5.56% | 韓英翻譯平行數據集 |
aihub - parallel - translation | 5.56% | 話語類型及領域별韓英翻譯數據集 |
aihub - food | 5.56% | 食品領域英韓翻譯數據集 |
aihub - techsci | 5.56% | ICT、電氣/電子等技術科學領域韓英翻譯數據集 |
para_pat | 5.56% | ParaPat數據集的英語 - 韓語子集 |
aihub - speechtype - based - machine - translation | 5.56% | 話語類型별英韓翻譯數據集 |
koopus100 | 5.56% | OPUS - 100數據集的英語 - 韓語子集 |
aihub - basicsci | 5.56% | 數學、物理學等基礎科學領域韓英翻譯數據集 |
aihub - broadcast - content | 5.56% | 廣播內容領域韓英翻譯數據集 |
aihub - patent | 5.56% | 專利說明書英韓翻譯數據集 |
aihub - colloquial | 5.56% | 包含新詞、縮寫等的口語體韓英翻譯數據集 |
有關AI Hub許可信息,請參考以下鏈接: AI Hub許可信息
評估
評估代碼倉庫:https://github.com/davidkim205/translation
類型 | 模型 | BLEU | SBLEU | 重複率 | 長度超出 |
---|---|---|---|---|---|
HuggingFace | facebook/nllb - 200 - distilled - 1.3B | 0.26 | 0.30 | 1 | 3 |
HuggingFace | jbochi/madlad400 - 10b - mt | 0.29 | 0.38 | 3 | 6 |
HuggingFace | Unbabel/TowerInstruct - 7B - v0.1 | 0.32 | 0.39 | 1 | 9 |
HuggingFace | squarelike/Gugugo - koen - 7B - V1.1 | 0.32 | 0.36 | 1 | 3 |
HuggingFace | maywell/Synatra - 7B - v0.3 - Translation | 0.35 | 0.41 | 1 | 2 |
雲服務 | deepl | 0.39 | 0.45 | 0 | 1 |
雲服務 | azure | 0.40 | 0.49 | 0 | 3 |
雲服務 | 0.40 | 0.49 | 0 | 2 | |
雲服務 | papago | 0.43 | 0.51 | 0 | 3 |
HuggingFace | davidkim205/iris - 7b (我們的模型) | 0.40 | 0.43 | 0 | 3 |
🔧 技術細節
文檔未提供具體技術細節,暫不展示。
📄 許可證
本項目採用Apache - 2.0許可證。
M2m100 418M
MIT
M2M100是一個多語言編碼器-解碼器模型,支持100種語言的9900個翻譯方向
機器翻譯 支持多種語言
M
facebook
1.6M
299
Opus Mt Fr En
Apache-2.0
基於Transformer的法語到英語神經機器翻譯模型,由Helsinki-NLP團隊開發,採用OPUS多語數據集訓練。
機器翻譯 支持多種語言
O
Helsinki-NLP
1.2M
44
Opus Mt Ar En
Apache-2.0
基於OPUS數據訓練的阿拉伯語到英語的機器翻譯模型,採用transformer-align架構
機器翻譯 支持多種語言
O
Helsinki-NLP
579.41k
42
M2m100 1.2B
MIT
M2M100是一個支持100種語言的多語言機器翻譯模型,可直接在9900個翻譯方向之間進行翻譯。
機器翻譯 支持多種語言
M
facebook
501.82k
167
Indictrans2 Indic En 1B
MIT
支持25種印度語言與英語互譯的1.1B參數規模機器翻譯模型,由AI4Bharat項目開發
機器翻譯
Transformers 支持多種語言

I
ai4bharat
473.63k
14
Opus Mt En Zh
Apache-2.0
基於Transformer架構的英漢多方言翻譯模型,支持英語到13種漢語變體的翻譯任務
機器翻譯 支持多種語言
O
Helsinki-NLP
442.08k
367
Opus Mt Zh En
由赫爾辛基大學開發的基於OPUS語料庫的中文到英語機器翻譯模型
機器翻譯 支持多種語言
O
Helsinki-NLP
441.24k
505
Mbart Large 50 Many To Many Mmt
基於mBART-large-50微調的多語言機器翻譯模型,支持50種語言間的互譯
機器翻譯 支持多種語言
M
facebook
404.66k
357
Opus Mt De En
Apache-2.0
opus-mt-de-en 是一個基於 transformer-align 架構的德語到英語的機器翻譯模型,由 Helsinki-NLP 團隊開發。
機器翻譯 支持多種語言
O
Helsinki-NLP
404.33k
44
Opus Mt Es En
Apache-2.0
這是一個基於Transformer架構的西班牙語到英語的機器翻譯模型,由Helsinki-NLP團隊開發。
機器翻譯
Transformers 支持多種語言

O
Helsinki-NLP
385.40k
71
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98