hebrew-gpt_neo-tinyオープンソースモデル - ヘブライ語用に最適化されたテキスト生成ツール

ホーム

Hebrew Gpt Neo Tiny

Norod78によって開発

GPT-Neoアーキテクチャに基づくヘブライ語テキスト生成モデル、ヘブライ語に最適化

大規模言語モデルその他オープンソースライセンス:MIT #ヘブライ語生成 #ミニGPTアーキテクチャ #多分野テキスト生成

ダウンロード数 40

リリース時間 : 3/2/2022

モデル概要

これはEleutherAI GPT-Neoアーキテクチャに基づく小型ヘブライ語テキスト生成モデルで、ヘブライ語テキスト生成タスクに適しています

モデル特徴

ヘブライ語最適化

ヘブライ語テキスト生成タスクに特化してトレーニングおよび最適化

GPT-Neoアーキテクチャ採用

EleutherAIが開発したGPT-Neoアーキテクチャを採用し、効率的なテキスト生成能力を有する

軽量モデル

ミニバージョンはリソースが限られた環境での使用に適しています

モデル能力

ヘブライ語テキスト生成

コンテキスト理解

マルチターン対話

使用事例

テキスト生成

クリエイティブライティング

ヘブライ語のクリエイティブテキストを生成

対話システム

ヘブライ語チャットボットの構築

教育

言語学習

ヘブライ語を学ぶ学生の言語練習を支援

🚀 ヘブライ語GPT - Neo Tiny

このモデルは、[EleutherAIのgpt - neo](https://github.com/EleutherAI/gpt - neo)に基づいたヘブライ語のテキスト生成モデルです。各モデルは、TPU Research Cloudプログラムを通じて利用可能になったTPUv3 - 8で学習されました。

✨ 主な機能

ヘブライ語のテキストを生成することができます。

📦 インストール

必要なライブラリのインストール

!pip install tokenizers==0.10.2 transformers==4.6.0

💻 使用例

基本的な使用法

# 必要なライブラリのインポート
from transformers import AutoTokenizer, AutoModelForCausalLM
  
# トークナイザーとモデルのロード
tokenizer = AutoTokenizer.from_pretrained("Norod78/hebrew-gpt_neo-tiny")
model = AutoModelForCausalLM.from_pretrained("Norod78/hebrew-gpt_neo-tiny", pad_token_id=tokenizer.eos_token_id)

# 入力プロンプトの設定
prompt_text = "אני אוהב שוקולד ועוגות"
max_len = 512
sample_output_num = 3
seed = 1000

import numpy as np
import torch

# デバイスの設定
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
n_gpu = 0 if torch.cuda.is_available()==False else torch.cuda.device_count()

print(f"device: {device}, n_gpu: {n_gpu}")

# 乱数シードの設定
np.random.seed(seed)
torch.manual_seed(seed)
if n_gpu > 0:
    torch.cuda.manual_seed_all(seed)

# モデルをデバイスに移動
model.to(device)

# 入力プロンプトのエンコード
encoded_prompt = tokenizer.encode(
    prompt_text, add_special_tokens=False, return_tensors="pt")

encoded_prompt = encoded_prompt.to(device)

if encoded_prompt.size()[-1] == 0:
        input_ids = None
else:
        input_ids = encoded_prompt

print("input_ids = " + str(input_ids))

if input_ids != None:
  max_len += len(encoded_prompt[0])
  if max_len > 1024:
    max_len = 1024

print("Updated max_len = " + str(max_len))

# 停止トークンと改行の設定
stop_token = "<|endoftext|>"
new_lines = "\n\n\n"

# テキスト生成
sample_outputs = model.generate(
    input_ids,
    do_sample=True, 
    max_length=max_len, 
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=sample_output_num
)

print(100 * '-' + "\n\t\tOutput\n" + 100 * '-')
for i, sample_output in enumerate(sample_outputs):

  text = tokenizer.decode(sample_output, skip_special_tokens=True)
  
  # 停止トークン以降のテキストを削除
  text = text[: text.find(stop_token) if stop_token else None]

  # 3つの改行以降のテキストを削除
  text = text[: text.find(new_lines) if new_lines else None]

  print("\n{}: {}".format(i, text))
  print("\n" + 100 * '-')