ChatGPT無料バージョンであるGPT-3.5と、有料バージョンであるGPT-4ではどのような違いがあるか、よく質問を受ける。要するに無料のGPT-3.5でも十分ではないかと考える人が大勢いて、今のバージョンのものでも十分で、わざわざ有料版にする必要はないのではないかという風に思っているのだ。ちなみに、私は最近GPT-4に切り替えた。その理由も含めて以下に説明していく。
まず私が有料でもGPT-4を使う一番の理由は、一度に入力できる文字数である。実はChatGPTで最大入力可能文字数というのは正確にはわからない。理由はChatGPTの場合、文字単位ではなくトークンという独特の情報単位で入力容量を計算する。英語入力の場合、1トークンは1単語もしくは数文字。日本語の場合は1文字から数文字と我々が入力文字を見ながら勘定する文字数と一致しない。
大まかに経験から言ってしまうと、GPT-3.5はA4用紙1枚弱で、「The message you submitted was too long, please reload the conversation and submit something shorter.」というエラーがでて、先に進めなくなってしまう。つまりもっと短い文章でないと受け付けないと言っているのだ。反してGPT-4ではA4用紙3、4枚までエラーにならなかった。体感的には、GPT-4はおよそ5倍の量が一度に入力できるようだ。
英文契約書を例に取ると、A4、1枚だけという契約書は世の中にほとんどなく、2、3枚以上で、多いものは10枚以上のものもある。GPT-3.5 を使って複数枚の英文契約書を日本語に翻訳する場合、一度に入力できる文字制限があるので、何回かに分けて入力する必要がある。実際にやってみると分かるが、最初の入力時の翻訳と後の翻訳が微妙に違ってくるという問題がある。どうもGPT-3.5は、分割して入力した文章の整合性を取るのが不得意なようだ。GPT-4を使用すると5倍の量が一度に入力できるので、かなりの量の契約書でも整合性が取れるようになる。
さらに、ChatGPTには、最大入力文字数とは別にどれだけ多くのデータを、どれだけ長く「メモリー」に保持できるかという「コンテキスト・サイズ」というものがある。入力情報の一貫性を保つのに大事なワーキング・メモリー容量だ。入力した情報がこのサイズを超えてしまうと、先に入力した情報から順番に解放されていく。人間で例えると、人の名前を次々と覚えるゲームで、ある時点から覚えられなくなるという現象と似ている。GPT-4の「コンテキスト・サイズ」はGPT-3.5の何倍もあるようだ(ChatGPTは日々進歩しているので、正確な倍数は不明)。
翻訳であれば、まだ自分の目で丁寧にチェックして整合性を確認、修正していくことができるが、全体を要約したり、要点を整理したりするのは分割入力ではまったくうまくいかない。私が有料でもGPT-4に切り替えた一番の理由はそこにある。
最大入力文字数以外にGPT-4がGPT-3.5より優れている点を以下に書いてみた。
- 精度: GPT-4は、より多くのデータでトレーニングされている可能性が高いため、一般的にはGPT-3.5よりも正確な回答を提供することが期待される。
- 理解力: 新しいバージョンのモデルは、より複雑な質問や多様なトピックに対しても適切に反応する能力が向上していることが期待される。
- 一貫性: GPT-4は、入力に対する回答の一貫性が向上している可能性がある。
- トレーニングデータ: GPT-4は、最新の情報やイベントに関する知識を持っている可能性が高い。
- 安全性と偏見の削減: 開発会社であるOpenAIは、モデルのバージョンが進むにつれて、出力の安全性や偏見の問題を低減させるための研究を続けている。GPT-4は、これらの領域での改善が反映されている可能性がある。
ChatGPT-4へのバージョンアップは、有料版ChatGPT Plusに変更する必要があるが、必要条件であって、十分条件ではない。国、地域、ユーザーの種類(IT企業かどうか、ChatGPTを使って何らかのアプリを作成するかどうかなど)で制限があるようだ。つまりChatGPT Plusへ変更したかと言ってみんながGPT-4が使える訳ではなさそうだ。そういう訳で、まずGPT-4へのバージョンアップのサイトを見つけて、申し込んでみることをお薦めする。おそらくウェイティングリストになり、しばらく返事を待つことになると思う。