ChatGPTのo1と4oの使い分け

OpenAIのo1モデルは、複雑な問題に対する高精度な解答能力を備えており、以下の分野で優れた性能を発揮する傾向にある。

  1. 数学の難問: 国際数学オリンピック(IMO)の予選試験において、GPT-4oが正解率13%であったのに対し、o1モデルは83%のスコアを達成しました。

  2. プログラミングコンテストの上級問題: 競技プログラミングプラットフォームであるCodeforcesのコンテストにおいて、o1モデルは89パーセンタイルを達成しています。

  3. 博士課程レベルの科学問題: 物理、科学、生物学の分野で、博士課程の学生と同等のパフォーマンスを発揮しています。

しかしながら、文章の要約や発想の転換・飛躍が必要な問題解決によっては4oモデルの方が、しっくりする回答することも多い。また、推論を組み込んだプロンプトでは、エラーを出力する傾向があり、用途の試行錯誤しているところ。

今は、推論の方向性や特定のフレームワークを使いたい場合は、プロンプトに推論を組み込み、o1でブラッシュアップした後に、4oで実行している。ただし、回答が途中で止まるため、続きを促すチャットする必要あるのは少し手間。