OpenAIのo1モデルは、複雑な問題に対する高精度な解答能力を備えており、以下の分野で優れた性能を発揮する傾向にある。
-
数学の難問: 国際数学オリンピック(IMO)の予選試験において、GPT-4oが正解率13%であったのに対し、o1モデルは83%のスコアを達成しました。
-
プログラミングコンテストの上級問題: 競技プログラミングプラットフォームであるCodeforcesのコンテストにおいて、o1モデルは89パーセンタイルを達成しています。
-
博士課程レベルの科学問題: 物理、科学、生物学の分野で、博士課程の学生と同等のパフォーマンスを発揮しています。
しかしながら、文章の要約や発想の転換・飛躍が必要な問題解決によっては4oモデルの方が、しっくりする回答することも多い。また、推論を組み込んだプロンプトでは、エラーを出力する傾向があり、用途の試行錯誤しているところ。
今は、推論の方向性や特定のフレームワークを使いたい場合は、プロンプトに推論を組み込み、o1でブラッシュアップした後に、4oで実行している。ただし、回答が途中で止まるため、続きを促すチャットする必要あるのは少し手間。
o1 Pro modeが万能ではない証。
— 岡安モフモフ(アーガイル社長)@ChatGPT/Gemini/ClaudeなどLLMでサービス作る人 (@shields_pikes) 2024年12月6日
会議室で何人ものおっさんが相談した上で、ツンデレ風の台詞を出力してる感が凄くて萎えるうえに、あっという間に白旗を上げてきた。
わかってたけど、こういう用途はo1には向かないんだよね。4oが一番。 pic.twitter.com/vPkmBrtFb6
o1 Pro modeが万能ではない証。
— 岡安モフモフ(アーガイル社長)@ChatGPT/Gemini/ClaudeなどLLMでサービス作る人 (@shields_pikes) 2024年12月6日
会議室で何人ものおっさんが相談した上で、ツンデレ風の台詞を出力してる感が凄くて萎えるうえに、あっという間に白旗を上げてきた。
わかってたけど、こういう用途はo1には向かないんだよね。4oが一番。 pic.twitter.com/vPkmBrtFb6
o1 Pro modeが万能ではない証。
— 岡安モフモフ(アーガイル社長)@ChatGPT/Gemini/ClaudeなどLLMでサービス作る人 (@shields_pikes) 2024年12月6日
会議室で何人ものおっさんが相談した上で、ツンデレ風の台詞を出力してる感が凄くて萎えるうえに、あっという間に白旗を上げてきた。
わかってたけど、こういう用途はo1には向かないんだよね。4oが一番。 pic.twitter.com/vPkmBrtFb6
でもo1 proは4oに比べて脅しに対するレスポンスが圧倒的に高い 「次○○をしたらあなたの仕事は無くなります」とか「次○○をしたらあなたは2度と誰にも使われることなく、湖の底で一生を終えるでしょう」とか書くとすごい文量が増える
— 吉川飛空 / Yoshikawa Hitaka (@YoshikawaHitaka) 2024年12月14日