🚀 アイリス (Iris)
アイリス (Iris) は、ディープラーニングに基づく韓国語と英語の文章翻訳を行うためのモデルです。高度な自然言語処理技術を利用して、韓国語の文章を英語に、または英語の文章を韓国語に翻訳することができます。このモデルは、各言語の文法、語彙、文脈を理解し、適切な翻訳を生成するように学習されています。アイリスは、効率的かつ正確な翻訳を提供し、様々なアプリケーションで使用することができます。

🚀 クイックスタート
このセクションでは、アイリス (Iris) モデルを使用して韓国語と英語の文章翻訳を行うための基本的な手順を説明します。
✨ 主な機能
- ディープラーニングに基づく韓国語 - 英語文章翻訳
- 高度な自然言語処理技術を利用した効率的かつ正確な翻訳
- 様々なアプリケーションでの使用可能
📦 インストール
以下のコードを使用して、必要なライブラリをインストールし、モデルをロードすることができます。
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
repo = "davidkim205/iris-7b"
model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=torch.bfloat16, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained(repo)
💻 使用例
基本的な使用法
def generate(prompt):
encoding = tokenizer(
prompt,
return_tensors='pt',
return_token_type_ids=False
).to("cuda")
gen_tokens = model.generate(
**encoding,
max_new_tokens=2048,
temperature=1.0,
num_beams=5,
)
prompt_end_size = encoding.input_ids.shape[1]
result = tokenizer.decode(gen_tokens[0, prompt_end_size:])
return result
def translate_ko2en(text):
prompt = f"[INST] 다음 문장을 영어로 번역하세요.{text} [/INST]"
return generate(prompt)
def translate_en2ko(text):
prompt = f"[INST] 다음 문장을 한글로 번역하세요.{text} [/INST]"
return generate(prompt)
def main():
while True:
text = input('>')
en_text = translate_ko2en(text)
ko_text = translate_en2ko(en_text)
print('en_text', en_text)
print('ko_text', ko_text)
if __name__ == "__main__":
main()
出力例
$ python iris_test.py
Downloading shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 4.72it/s]
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00, 1.07it/s]
>아이리스는 딥러닝을 기반으로 한 한-영어 문장 번역을 위한 모델이다.
en_text Iris is a model for Korean-to-English sentence translation based on deep learning.</s>
ko_text 아이리스는 딥러닝을 기반으로 한 한국어-영어 문장 번역을 위한 모델이다.</s>
📚 ドキュメント
テンプレート
韓国語 -> 英語
[INST] 다음 문장을 영어로 번역하세요.{text} [/INST]
英語 -> 韓国語
"[INST] 다음 문장을 한글로 번역하세요.{text} [/INST]"
データセット情報 : translation_v3_346k
このデータセットは、ライセンスの問題で公開されていません。
ソース |
比率 |
説明 |
aihub - MTPE |
5.56% |
機械翻訳品質事後検証データセット |
aihub - techsci2 |
5.56% |
ICT、電気/電子など技術科学分野の韓英翻訳データセット |
aihub - expertise |
5.56% |
医療、金融、スポーツなど専門分野の韓英翻訳データセット |
aihub - humanities |
5.56% |
人文科学分野の韓英翻訳データセット |
sharegpt - deepl - ko - translation |
5.56% |
shareGPTデータセットを質問応答形式から韓英翻訳形式に変換したデータセット |
aihub - MT - new - corpus |
5.56% |
機械翻訳アプリ構築用の韓英翻訳データセット |
aihub - socialsci |
5.56% |
法律、教育、経済など社会科学分野の韓英翻訳データセット |
korean - parallel - corpora |
5.56% |
韓英翻訳並列データセット |
aihub - parallel - translation |
5.56% |
発話タイプおよび分野別の韓英翻訳データセット |
aihub - food |
5.56% |
食品分野の英韓翻訳データセット |
aihub - techsci |
5.56% |
ICT、電気/電子など技術科学分野の韓英翻訳データセット |
para_pat |
5.56% |
ParaPatデータセットの英語 - 韓国語サブセット |
aihub - speechtype - based - machine - translation |
5.56% |
発話タイプ別の英韓翻訳データセット |
koopus100 |
5.56% |
OPUS - 100データセットの英語 - 韓国語サブセット |
aihub - basicsci |
5.56% |
数学、物理学など基礎科学分野の韓英翻訳データセット |
aihub - broadcast - content |
5.56% |
放送コンテンツ分野の韓英翻訳データセット |
aihub - patent |
5.56% |
特許明細書の英韓翻訳データセット |
aihub - colloquial |
5.56% |
新語、略語などを含む口語体の韓英翻訳データセット |
aihubのライセンス情報については、以下のURLを参照してください。
https://aihub.or.kr/partcptnmlrd/inqry/view.do?currMenu=144&topMenu=104
評価
評価結果については、こちらを参照してください。
タイプ |
モデル |
BLEU |
SBLEU |
重複 |
長さ超過 |
HuggingFace |
facebook/nllb - 200 - distilled - 1.3B |
0.26 |
0.30 |
1 |
3 |
HuggingFace |
jbochi/madlad400 - 10b - mt |
0.29 |
0.38 |
3 |
6 |
HuggingFace |
Unbabel/TowerInstruct - 7B - v0.1 |
0.32 |
0.39 |
1 |
9 |
HuggingFace |
squarelike/Gugugo - koen - 7B - V1.1 |
0.32 |
0.36 |
1 |
3 |
HuggingFace |
maywell/Synatra - 7B - v0.3 - Translation |
0.35 |
0.41 |
1 |
2 |
Cloud |
deepl |
0.39 |
0.45 |
0 |
1 |
Cloud |
azure |
0.40 |
0.49 |
0 |
3 |
Cloud |
google |
0.40 |
0.49 |
0 |
2 |
Cloud |
papago |
0.43 |
0.51 |
0 |
3 |
HuggingFace |
davidkim205/iris - 7b (当社モデル) |
0.40 |
0.43 |
0 |
3 |
🔧 技術詳細
モデル詳細
属性 |
詳情 |
モデル開発者 |
davidkim(김창연) |
リポジトリ |
近日更新予定 |
ベースモデル |
mistralai/Mistral - 7B - v0.2 |
データセット |
translation_v3_346k |
📄 ライセンス
このプロジェクトは、Apache 2.0ライセンスの下でライセンスされています。