iris-7bオープンソース韓英翻訳モデル - ディープラーニングに基づく高品質な文章の相互翻訳を実現

ホーム

Iris 7b

davidkim205によって開発

Irisは深層学習に基づく韓英文相互翻訳モデルで、先進的な自然言語処理技術により高品質な翻訳を実現します。

機械翻訳

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #韓英翻訳 #高品質翻訳 #深層学習

ダウンロード数 716

リリース時間 : 3/25/2024

モデル概要

Irisは韓国語と英語の相互翻訳に特化した深層学習モデルで、両言語の文法、語彙、文脈を深く理解し、正確な翻訳結果を生成できます。

モデル特徴

高品質翻訳

先進的な自然言語処理技術により韓国語と英語間の高品質な相互翻訳を実現。

文脈理解

両言語の文法、語彙、文脈を深く理解し、正確な翻訳結果を生成。

多様な応用

技術文書、日常会話など様々な応用シーンに適しています。

モデル能力

韓国語から英語への翻訳

英語から韓国語への翻訳

文脈認識翻訳

使用事例

技術翻訳

技術文書翻訳

技術文書を韓国語から英語へ、またはその逆に翻訳。

高品質な技術用語翻訳

日常翻訳

日常会話翻訳

日常会話を韓国語から英語へ、またはその逆に翻訳。

自然な言語表現

🚀 アイリス (Iris)

アイリス (Iris) は、ディープラーニングに基づく韓国語と英語の文章翻訳を行うためのモデルです。高度な自然言語処理技術を利用して、韓国語の文章を英語に、または英語の文章を韓国語に翻訳することができます。このモデルは、各言語の文法、語彙、文脈を理解し、適切な翻訳を生成するように学習されています。アイリスは、効率的かつ正確な翻訳を提供し、様々なアプリケーションで使用することができます。

image/jpeg

🚀 クイックスタート

このセクションでは、アイリス (Iris) モデルを使用して韓国語と英語の文章翻訳を行うための基本的な手順を説明します。

✨ 主な機能

ディープラーニングに基づく韓国語 - 英語文章翻訳
高度な自然言語処理技術を利用した効率的かつ正確な翻訳
様々なアプリケーションでの使用可能

📦 インストール

以下のコードを使用して、必要なライブラリをインストールし、モデルをロードすることができます。

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

repo = "davidkim205/iris-7b"
model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=torch.bfloat16, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained(repo)

💻 使用例

基本的な使用法

def generate(prompt):
    encoding = tokenizer(
        prompt,
        return_tensors='pt',
        return_token_type_ids=False
    ).to("cuda")
    gen_tokens = model.generate(
        **encoding,
        max_new_tokens=2048,
        temperature=1.0,
        num_beams=5,
    )
    prompt_end_size = encoding.input_ids.shape[1]
    result = tokenizer.decode(gen_tokens[0, prompt_end_size:])

    return result


def translate_ko2en(text):
    prompt = f"[INST] 다음 문장을 영어로 번역하세요.{text} [/INST]"
    return generate(prompt)


def translate_en2ko(text):
    prompt = f"[INST] 다음 문장을 한글로 번역하세요.{text} [/INST]"
    return generate(prompt)


def main():
    while True:
        text = input('>')
        en_text = translate_ko2en(text)
        ko_text = translate_en2ko(en_text)
        print('en_text', en_text)
        print('ko_text', ko_text)

if __name__ == "__main__":
    main()

出力例

$ python iris_test.py 
Downloading shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  4.72it/s]
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.07it/s]
>아이리스는 딥러닝을 기반으로 한 한-영어 문장 번역을 위한 모델이다.
en_text Iris is a model for Korean-to-English sentence translation based on deep learning.</s>
ko_text 아이리스는 딥러닝을 기반으로 한 한국어-영어 문장 번역을 위한 모델이다.</s>

📚 ドキュメント

テンプレート

韓国語 -> 英語

[INST] 다음 문장을 영어로 번역하세요.{text} [/INST]

英語 -> 韓国語

"[INST] 다음 문장을 한글로 번역하세요.{text} [/INST]"

データセット情報 : translation_v3_346k

このデータセットは、ライセンスの問題で公開されていません。

ソース	比率	説明
aihub - MTPE	5.56%	機械翻訳品質事後検証データセット
aihub - techsci2	5.56%	ICT、電気/電子など技術科学分野の韓英翻訳データセット
aihub - expertise	5.56%	医療、金融、スポーツなど専門分野の韓英翻訳データセット
aihub - humanities	5.56%	人文科学分野の韓英翻訳データセット
sharegpt - deepl - ko - translation	5.56%	shareGPTデータセットを質問応答形式から韓英翻訳形式に変換したデータセット
aihub - MT - new - corpus	5.56%	機械翻訳アプリ構築用の韓英翻訳データセット
aihub - socialsci	5.56%	法律、教育、経済など社会科学分野の韓英翻訳データセット
korean - parallel - corpora	5.56%	韓英翻訳並列データセット
aihub - parallel - translation	5.56%	発話タイプおよび分野別の韓英翻訳データセット
aihub - food	5.56%	食品分野の英韓翻訳データセット
aihub - techsci	5.56%	ICT、電気/電子など技術科学分野の韓英翻訳データセット
para_pat	5.56%	ParaPatデータセットの英語 - 韓国語サブセット
aihub - speechtype - based - machine - translation	5.56%	発話タイプ別の英韓翻訳データセット
koopus100	5.56%	OPUS - 100データセットの英語 - 韓国語サブセット
aihub - basicsci	5.56%	数学、物理学など基礎科学分野の韓英翻訳データセット
aihub - broadcast - content	5.56%	放送コンテンツ分野の韓英翻訳データセット
aihub - patent	5.56%	特許明細書の英韓翻訳データセット
aihub - colloquial	5.56%	新語、略語などを含む口語体の韓英翻訳データセット

aihubのライセンス情報については、以下のURLを参照してください。 https://aihub.or.kr/partcptnmlrd/inqry/view.do?currMenu=144&topMenu=104

評価

評価結果については、こちらを参照してください。

タイプ	モデル	BLEU	SBLEU	重複	長さ超過
HuggingFace	facebook/nllb - 200 - distilled - 1.3B	0.26	0.30	1	3
HuggingFace	jbochi/madlad400 - 10b - mt	0.29	0.38	3	6
HuggingFace	Unbabel/TowerInstruct - 7B - v0.1	0.32	0.39	1	9
HuggingFace	squarelike/Gugugo - koen - 7B - V1.1	0.32	0.36	1	3
HuggingFace	maywell/Synatra - 7B - v0.3 - Translation	0.35	0.41	1	2
Cloud	deepl	0.39	0.45	0	1
Cloud	azure	0.40	0.49	0	3
Cloud	google	0.40	0.49	0	2
Cloud	papago	0.43	0.51	0	3
HuggingFace	davidkim205/iris - 7b (当社モデル)	0.40	0.43	0	3

🔧 技術詳細

モデル詳細

属性	詳情
モデル開発者	davidkim(김창연)
リポジトリ	近日更新予定
ベースモデル	mistralai/Mistral - 7B - v0.2
データセット	translation_v3_346k