Karen_TheEditor_V2_CREATIVE_Mistral_7Bオープンソースモデル - アメリカ英語の文法やスペルの誤りを正確に校正

ホーム

Karen TheEditor V2 CREATIVE Mistral 7B

FPHamによって開発

Karenはアメリカ英語の文法とスペルチェックに特化した大規模言語モデルで、非ネイティブ作家のよくある間違いを識別するのが特に得意です。

大規模言語モデル

Transformers

#アメリカ英語校正 #文法修正と最適化 #クリエイティブライティング支援

ダウンロード数 55

リリース時間 : 11/21/2023

モデル概要

Karenはテキスト編集アシスタントで、主にアメリカ英語の文法とスペルの誤りを修正しつつ、原文のスタイルを尊重します。クリエイティブ版は文脈に応じた最適化提案を提供します。

モデル特徴

文法校正の専門家

非ネイティブのよくある文法ミス（動詞の時制、主語と動詞の一致、冠詞の使用など）を特に得意としています

スタイル保持

誤りを修正しながらも原文のスタイルと意図をできる限り保持します

クリエイティブな提案

文脈に応じた最適化や表現調整の提案を行います（クリエイティブ版限定）

逆方向トレーニング

特殊なトレーニング手法を採用：まずテキストに誤りを埋め込み、その後修正トレーニングを行います

モデル能力

文法誤り検出

スペルチェック

テキストの磨き上げ

文脈に応じた最適化提案

使用事例

ライティング支援

小説編集

作家が小説中の文法とスペルの誤りを修正するのを支援

文法スコアが48から93に向上（厳密版の例）

学術ライティング

英語非ネイティブの学者の論文を校正

言語学習

英語学習

英語学習者がよくある間違いを識別・修正するのを支援

🚀 ケアレンはあなたの文章を編集するエディターです。(v.2) クリエイティブエディション

ケアレンは、あなたの文章の文法やスペルの誤りを修正し、文章をより良いものにするためのエディターです。ケアレンは、あなたの文章のスタイルを尊重しながら、文法やスペルの誤りを修正します。

ケアレンにコーヒーを買う

✨ 主な機能

バージョン2の特徴

ケアレンバージョン2では、以前のバージョンとは全く異なるデータセットとベースモデルを使用しています。

2種類のバージョン

ストリクト版 (こちら): このバージョンでは、ケアレンはあなたの原文にできるだけ多くの変更を加えず、主に文法とスペルを修正します。あなたが自分のやり方を知っていることを前提としています。
クリエイティブ版 (このバージョン): このバージョンでは、ケアレンは必要に応じて、文脈的な改善や言い換えを提案することがあります。ワインを一杯飲んだ後のケアレンのような感じです。

主な目標

ケアレンの主な目標は、米国英語の文法とスペルの誤りを修正することで、文章のスタイルを変更することはありません。また、一般的なESLの誤りを特定して修正することも得意です。具体的な誤りの種類は以下の通りです。

動詞の時制誤り: 必要な時制が過去形のときに現在形を使ったり、その逆の場合や、進行形と単純形の時制の混乱など。
主語と動詞の一致: 主語と動詞の数が一致していない場合、例えば複数の主語に単数の動詞を使ったり、その逆の場合。
冠詞 (a, an, the): 冠詞の誤用や省略、例えば "a" の代わりに "an" を使ったり、その逆の場合や、定冠詞 "the" の過剰使用や省略。
前置詞: 前置詞の誤用、例えば "in" の代わりに "on" や "at" を使ったり、必要な前置詞を省略する場合。
語順: 文の語順の誤り、特に疑問文や否定文で。副詞や形容詞の位置の誤りも含まれます。
複数形: 名詞の複数形の誤り、例えば必要なときに "-s" や "-es" を付けない場合。
代名詞の誤り: 主格代名詞と目的格代名詞の混乱、所有格代名詞の誤用。
二重否定: 標準英語で文法的に誤っている二重否定の使用。
助動詞: can, could, will, would, should などの助動詞の誤用。
似た単語の混乱: 似た音の単語で、意味やスペルが異なるものの混乱 (例: "their," "there," "they're")。
単数形と複数形の一致の欠如: 文内の単数名詞と複数名詞、動詞の一致の誤り。

将来の目標

より大きなモデルを使用する。
モデルが見逃している文法のケースを追加する。
より良いデータセットを使用する。
より大きなデータセットを使用する。

📦 インストール

ドキュメントにインストール手順は記載されていません。

💻 使用例

基本的な使用法

ケアレンは、一度に1段落またはブロックの文章を提出することで使用できます。以下のような形式で入力します。

<|im_start|>system
<|im_end|>
<|im_start|>user
Edit the following text for spelling and grammar mistakes: {paragraph of text} <|im_end|>
<|im_start|>assistant

実際の文章の前に "Edit the following text for spelling and grammar mistakes:" という前置文を付けることで、ケアレンが文章について話し始めることを防ぎます。

具体的な使用例

入力文章

Edit the following text for spelling and grammar mistakes: I see future writing more about you writing the story any way you can and LLM editing it and making it into a proper fiction. That seems to be more satisfying way where you could feel you actually had done something creATIVE. So human is the creative, LLM is the burger flipping intern.
>The opposite is what many people are trying rn. Make LLM to invent story (from premise, to creating outline to writing actual chapters) and the human to somehow assemble it from those pieces. So LLM is the creative man, and human is the floor polisher.
>I can't believe a normal person would find it satisfying long term.
>So in my view, the job of editor would be replaced by Ai, not the job of author.

(Grammarly Score: 48)

ストリクト版の出力

I see the future of writing being more about you writing the story any way you can and having an AI like LLM edit it and make it into a proper fiction. That seems to be a more satisfying way where you could feel you actually did something creative. So humans are the creative ones, while LLMs are the burger-flipping interns.
>
>On the other hand, many people are currently trying to do the exact opposite. They want to make LLMs create stories (from premises, to outlining, to writing entire chapters). And then they want humans to somehow piece them together from these parts. In this scenario, LLMs become the creative individuals, and humans become the floor polishers.
>
>I can't imagine a regular person finding that satisfying over the long run.
>
>In my opinion, the role of an editor will eventually be taken over by AI, not the role of an author.

(Grammarly Score: 93)

クリエイティブ版の出力

I see the future of writing being more focused on you writing the story any way you can and having an AI like GPT-3 edit it and turn it into a proper piece of fiction. This seems to be a more satisfying approach where you can truly feel that you have done something creative. In this scenario, humans remain the creative force, while the AI acts as the burger flipping intern.
>
>On the other hand, there are those who argue that we should let the AI generate stories from scratch - from coming up with a premise, to outlining the plot, to writing individual chapters. They believe that the role of the human should then become one of assembling these pieces together. In this case, the AI becomes the creative mind, and the human takes on the role of a floor polisher.
>
>I cannot imagine how someone could find this satisfying over the long term. Therefore, in my opinion, the job of the editor will eventually be taken over by AI, not the job of the author.

(Grammarly Score: 83)

🔧 技術詳細

ケアレンは、別のLlamaモデル (Darth Karen) とPythonスクリプトによって意図的に誤りが挿入された米国の架空/非架空の文章を逆学習させています。

📄 ライセンス

このモデルはLlama2のライセンスの下で提供されています。

📚 ドキュメント

推奨設定

Temperature: 0.7
top_p: 0.1
top_k: 40
repetition penalty: 1.18

チャットでの使用について

ケアレンはチャットでも使用できますが、文章が長い会話に関与する場合、ケアレンはあなたのメッセージを校正支援が必要なものと解釈する可能性があり、単にあなたがカジュアルなチャットで彼女を使用していることを認識するだけではなくなることがあります。

まとめ

おそらく10種類以上のバージョンを経て、現在のモデルはかなりうまく機能していますが、時々 (しかししばしば議論の余地がある) 文法の誤りを見逃すことがあります。この制限は、7Bのパラメータに関係しているようです。パラメータのサイズが十分でないため、入力のさまざまな微妙なニュアンスを細かく理解することができないようです。これは、私の他の調査結果と一致しており、Mistralモデルは独自の文章を生成する際にはかなりうまく機能しますが、理解能力は完全ではなく、やはり7Bのパラメータに関係しています。

当初の目標は、文章のスタイルを変更しないモデルを作成することでした。多くのLLMモデルは、文章を編集するように依頼されると、文章がすでに問題ない場合でも文章を書き換えようとします。これは、文章を修正する (そしてスタイルを変更しない) とそのままコピーする間の適切なバランスを見つけることが主なタスクであるような小さなモデルにとってはかなり難しいことが証明されました。ストリクト版のモデルは、あなたがすでに良いライターであり、手助けを必要とせず、あなたが書いたすべての単語が意図したものであることを前提としています。