tweety-7b-tatar-v24aオープンソース大規模言語モデル - タタール語の複数トークン間での流暢な交流に対応

ホーム

Tweety 7b Tatar V24a

Tweetiesによって開発

タタール語向けに開発されたクロストークン大規模言語モデル、Mistral-7B-Instruct-v0.2を基に変換

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #タタール語生成 #クロストークンモデル #少数ショット学習

ダウンロード数 37

リリース時間 : 4/11/2024

モデル概要

本モデルはタタール語向けに開発されたクロストークン大規模言語モデルで、基本的な言語モデリングタスクに直接使用可能、さらに微調整してより複雑な操作を実行可能

モデル特徴

クロストークン化

タタール語ネイティブのトークナイザーを微調整し、この言語のコンテンツを生成可能に

低リソース言語サポート

タタール語のような低リソース言語のモデリングに焦点

拡張性

より複雑なタスクを実行するための基礎モデルとしてさらに微調整可能

モデル能力

タタール語テキスト生成

単語類推

テキスト要約

使用事例

言語学習・研究

タタール語言語モデリング

タタール語の基本言語モデリングタスクに使用

テキスト処理

タタール語テキスト要約

タタール語テキストの要約を生成

🚀 Tweety Tatar / Base 7b / 2024-v1

このモデルは、タタール語用に変換された大規模言語モデルです。MistralAIによってトレーニングされたMistral-7B-Instruct-v0.2モデルから派生しており、タタール語に特化した新しいトークナイザーを使用しています。

🚀 クイックスタート

このモデルは、HuggingFaceフレームワーク内で他の大規模言語モデルと同じように使用できます。以下に基本的な使用方法を示します。

import transformers

MODEL_NAME = "Tweeties/tweety-tatar-base-7b-2024-v1"
generate = transformers.pipeline("text-generation", model=MODEL_NAME)

✨ 主な機能

類推問題の解決

このモデルは、タタール語の類推問題を解くことができます。以下のコードは、類推問題を解くための例です。

ANALOGY_PROMPT = """Бу аналоглар таблицасын тутырыгыз:
* {x1} : {y1}
* {x2} :"""
def score_analogy(x1, y1, x2, y2):
    Y2_PROMPT = ANALOGY_PROMPT.replace('{x1}', x1).replace('{y1}', y1).replace('{x2}', x2)
    answer = generate(Y2_PROMPT, use_cache=True, do_sample=False, max_new_tokens=10, return_full_text=False, pad_token_id=generate.tokenizer.eos_token_id, eos_token_id=generate.tokenizer.convert_tokens_to_ids(['<0x0A>','</s>']))[0]['generated_text'].strip()
    return 1 if answer == y2 else 0

score_analogy('Мәскәү', 'Русия', 'Әнкара', 'Төркия') # 1

要約生成

このモデルは、タタール語の文章を要約することもできます。以下のコードは、要約生成の例です。

SUMMARIZE = "Түбәндәге текстка йомгак ясагыз:\n"
LONG_TEXT = "\n\nОзын текст:\n"
LONG_TEXT_DEMO = "Кеше организмы катлаулы организм, аның өчен кирәкле туклыклы матдәләрнең аерым баланс таләп итә. Кеше организмының туклану рационы нигездә пешекләнгән ризыклардан тора икән, аның организмы бу ысул белән туклануга җайлаша. Әмма, шул ук кеше кинәт чимал диетасына күчә икән, аның организмы әлеге үзгәрешне кабул итә алмый, бу мөмкин кадәр зыян китерергә мөмкин." # The human body is a complex organism that requires a specific balance of nutrients. If the human body's diet consists mainly of cooked foods, its body adapts to this type of nutrition. However, if the same person suddenly switches to a raw diet, his body cannot adapt to this change, which can be harmful. # The human body is a complex organism that requires a specific balance of nutrients to function optimally. When a person's diet consists primarily of cooked food, their body adapts to this way of eating. However, if that same person suddenly switches to a raw food diet, their body may not be able to handle the sudden change, leading to potential harm. 
SHORT_TEXT = "\n\nКыска текст:\n"
SHORT_TEXT_DEMO = "Әмма пешкән ризык ашауга гына күнгән организмга кинәт чи ризык белән туклануга күчүнең зарарлы нәтиҗәсе дә булырга мөмкин." # However, a body accustomed to eating only cooked food can have harmful consequences when suddenly switching to eating raw food.

def generate_tatar_summary(tatar_text_to_summarize: str) -> str:

    # craft the 1-shot example
    input_ids = torch.concat([
        tokenizer.encode(SUMMARIZE, return_tensors='pt'),
        tokenizer.encode(LONG_TEXT, add_special_tokens=False, return_tensors='pt'),
        tokenizer.encode(LONG_TEXT_DEMO, add_special_tokens=False, return_tensors='pt'),
        tokenizer.encode(SHORT_TEXT, add_special_tokens=False, return_tensors='pt'),
        tokenizer.encode(SHORT_TEXT_DEMO, add_special_tokens=False, return_tensors='pt'),
        tokenizer.encode("\n\n", add_special_tokens=False, return_tensors='pt')
    ], axis=1)
    
    # craft the input
    input_ids = torch.concat([
        input_ids,
        tokenizer.encode(SUMMARIZE, return_tensors='pt'),
        tokenizer.encode(LONG_TEXT, add_special_tokens=False, return_tensors='pt'),
        tokenizer.encode(tatar_text_to_summarize, add_special_tokens=False, return_tensors='pt'),
        tokenizer.encode(SHORT_TEXT, add_special_tokens=False, return_tensors='pt'),
    ], axis=1)

    # generate the output
    model_inputs = {'input_ids':input_ids.to(cuda_device)}
    model_outputs = model.generate(
        **model_inputs,
        max_new_tokens=80,
        num_beams=8,
        no_repeat_ngram_size=6,
        early_stopping=False,
        pad_token_id=tokenizer.eos_token_id,
        eos_token_id=tokenizer.convert_tokens_to_ids(['<0x0A>','</s>']),
    )

    # decode the output
    return (tokenizer.decode(model_outputs[0][input_ids.shape[1]:])).rstrip()

generate_tatar_summary("Зур шартлау (ингл. Big Bang) – Галәмнең башлангыч, сингуляр халәттә торган чорын тасвирлаучы космологик модель. Әле ХХ гасырда да без яшәгән Галәм статик структуралы, дигән фикер яшәгән. Ягъни, Галәмнең башы һәм ахыры юк, имеш, ул һәрвакыт булган һәм булачак. Бу фикер фән дөньясында бик озак, астрономия фәненең бөтен нигезләрен җимереп яңа теория барлыкка килгәнче яшәгән. Бу теориянең исеме – «Зур шартлау» теориясе.")

📚 ドキュメント

モデル情報

属性	详情
モデルタイプ	Mistralアーキテクチャを使用した基礎モデル
言語	タタール語
ライセンス	Apache 2.0
開発者	François Remy (UGent), Alfiya Khabibullina (BeCode), et al.
資金提供元	IDLab / GPULab (UGent)

引用

このモデルを使用する場合は、以下のように引用してください。

@article{tweeties2024,
    title = {Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP},
    author = {François Remy and Pieter Delobelle and Hayastan Avetisyan and Alfiya Khabibullina and Miryam de Lhoneux and Thomas Demeester},
    url = {https://arxiv.org/abs/2408.04303},
    year = {2024},
    note = {Accepted at COLM 2024}
}