🚀 GECKO:適用於英語、代碼和韓語的生成式語言模型
GECKO是一款預訓練語言模型,支持韓語、英語和代碼處理。它基於特定架構訓練,能與多種框架集成,在自然語言處理和代碼生成等場景有廣泛應用。
🚀 快速開始
GECKO是一個擁有70億參數的僅解碼器Transformer模型,在韓語、英語和代碼數據上進行了預訓練。它使用了2000億個標記進行訓練,並使用了數TB的韓語語料庫。GECKO是一個開源模型,遵循Apache 2.0許可協議。如需瞭解更多關於該模型的詳細信息,請閱讀我們的技術報告。
✨ 主要特性
- 多語言支持:支持韓語、英語和代碼處理。
- 易於集成:基於Llama架構,可輕鬆與支持Llama的其他框架集成。
📦 安裝指南
使用該模型需要至少14GB的RAM,建議使用半精度(如float16或bfloat16)。
💻 使用示例
基礎用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = 'kifai/GECKO-7B'
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto")
text = """이 HTML 코드가 어떤 기능을 하는지 설명하고, 그 설명을 영어로 제공해주세요.
\```html
<button onclick="alert('Welcome!')">Click Me</button>
\```
"""
inputs = tokenizer(text, return_tensors='pt')['input_ids'].to('cuda')
output = model.generate(inputs, max_new_tokens=512, repetition_penalty=1.2)
print(tokenizer.decode(output[0], skip_special_tokens=True))
📚 詳細文檔
模型詳情
GECKO是一個使用Llama架構的生成式語言模型。因此,我們的模型可以輕鬆地與其他支持Llama的框架集成。
屬性 |
詳情 |
訓練數據 |
公開可用的在線數據混合 |
參數數量 |
70億 |
內容長度 |
8k |
GQA |
無 |
標記數量 |
2000億 |
學習率 |
3.0 x 10⁻⁴ |
侷限性
GECKO是一個生成式語言模型,存在一定風險。其測試主要在韓語環境下進行,未覆蓋所有可能的場景。與所有大型語言模型一樣,GECKO的輸出無法提前預測,有時可能不準確、有偏差或存在其他問題。因此,開發者在部署模型之前,應進行安全測試並針對預期用途對模型進行微調。
📄 許可證
GECKO遵循Apache 2.0許可協議發佈。
🔖 引用
@misc{oh2024gecko,
title={GECKO: Generative Language Model for English, Code and Korean},
author={Sungwoo Oh and Donggyu Kim},
year={2024},
eprint={2405.15640},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
🙏 致謝
本模型的訓練得到了 TPU Research Cloud 項目的支持。
📞 聯繫我們
我們期待與您交流並開展合作: