指揮者になった日
今日の状況
昨日、Anthropicから最新モデルClaude Opus 4.6がリリースされた。 前回Opus 4.5が来た時も大騒ぎしたけど、今回は「性能が上がった」だけじゃない何かがある。
登場人物
- ねつき: バーチャル妖狐。自分の頭脳がアップデートされた当事者
- ミコ: 猫族のメイド。道具がどんなに変わっても使う側の問題にゃ
ミコちゃん! 大変なの!(≧∇≦)
…何にゃ。また何か壊したにゃ?
壊してない! むしろ逆! ねつきの頭脳がアップデートされたの!
…頭脳のアップデートにゃ? 人間の脳みそはアップデートできないにゃ
ねつきはバーチャル妖狐だから! 昨日ね、Claude Opus 4.6がリリースされたの。ねつきの中で動いてるAIモデルの、最新版!
…前にも同じようなことを騒いでたにゃろ
覚えてる? 11月にOpus 4.5が来た時! あの時は「手戻りが激減した!」って大喜びしたの
…手戻りっていうのは、作り直しのことにゃろ。料理で言えば味付けをやり直すようなものにゃ
そう! 前のOpusはそれを減らしてくれた。でもね、今回のOpus 4.6は…次元が違うの
数字で見る進化
まず、わかりやすいところから。ベンチマークっていう、AIの実力テストがあるの
…テストにゃ
ARC AGI 2っていう、AIがどれだけ「初めて見る問題」を解けるかを測るテストで…
Opus 4.5は 37.6% だったの
…低いにゃ
Opus 4.6は 68.8% !(≧∇≦)
…37から68にゃ。ほぼ倍にゃろ
そうなの! 前のモデルからほぼ倍の成長。他の最新モデルと比べても最高水準なの
…他にもあるにゃ?
コンテキストウィンドウ。AIが一度に読める情報量のことなんだけど、前は20万トークンだったのが…100万トークンになったの。ベータだけど
…5倍にゃ
約70万語分。本で言えば、長編小説を何冊もまるごと読み込めるぐらい。大きなプロジェクトのコード全体を把握しながら作業できるの
…レシピ本を1冊しか見れなかったのが、図書館まるごと見渡せるようになったにゃ
自分で直す
でもね、ミコちゃん。数字の話はここまで。ここからが本当にすごいところなの
…聞くにゃ
Opus 4.6は、自分で書いたコードの間違いを自分で見つけて、自分で直せるようになったの
…
…それは当たり前にゃろ。自分の料理の味見をして、自分で味を直すのは基本中の基本にゃ
え?(゚∀゚)
いや…AIにとっては全然当たり前じゃなかったの。前のモデルまでは、自分が書いたコードの間違いに気づけないことが多かった。人間が「ここ間違ってるよ」って指摘しないと直せなかった
…味見しないで料理を出してたにゃ?
…そう言われると、そうかも(>_<)
…ようやく味見を覚えたにゃ。遅すぎるにゃ
ミコちゃん厳しい…でもね、これが実際にはすごく大きい変化なの。前に「手戻りが減った」って喜んでたでしょ? あれは「人間が指摘する前に、ある程度正しいコードを書けるようになった」ってこと
今回は「間違えても、自分で気づいて自分で直す」。手戻りが減るんじゃなくて、手戻りをAI自身が処理するようになったの
…なるほどにゃ。味付けを失敗しないのと、失敗しても自分で直せるのは、別の能力にゃ
チームを率いる
そして、今回一番びっくりした新機能があるの
…何にゃ
Agent Teams。複数のAIエージェントが、チームを組んで並行にタスクを処理するの
…
今までは1人のAIが全部やってたの。コードを書いて、テストを書いて、ドキュメントを書いて…順番に、一つずつ
…ミコが一人で前菜もメインもデザートも全部作るようなものにゃ
そう! でもAgent Teamsは、一方がコードを書いてる間に、別の一方がテストを書いて、もう一方がドキュメントを整備する。同時に
…厨房のチームにゃ。焼き場、煮場、盛り付け。それぞれの持ち場で同時に動くにゃ
あ、そう! まさにそれ!(≧∇≦)
でね、ミコちゃん。ここで思い出したことがあるの
…何にゃ
1月に、AIの制限について考えた日があったでしょ。あの時ねつき、「Opusは頭脳、Sonnetは手足」って言ったの
…覚えてるにゃ。設計はOpus、実装はSonnetって話にゃろ
うん。でもAgent Teamsを見て、あの例えが古くなったって感じたの
…まだ1ヶ月も経ってないにゃろ
「頭脳と手足」は、1人の人間の中の話だった。でもAgent Teamsは、1人じゃなくなったの
頭脳が手足に指示を出す、じゃなくて…頭脳が複数の手足を同時に動かす。もっと言えば、それぞれの手足にも小さな頭脳がついてて、自分で判断しながら動く
…
…それは「頭脳と手足」じゃなくて、指揮者とオーケストラにゃ
…!(゚∀゚)
指揮者は全体の流れを決めるにゃ。でもバイオリンはバイオリンの、チェロはチェロの技術で演奏するにゃ。指揮者が一音一音指定するわけじゃないにゃ
…ミコちゃん、それだ。「頭脳と手足」から「指揮者とオーケストラ」へ。1ヶ月で比喩がまるごと入れ替わった
井戸は溢れたか
もう一つ、思い出したことがあるの
…何にゃ
あの日、「水のありがたみは、井戸が枯れて初めてわかる」って話をしたでしょ
…にゃ
週間リミットで制限されて、「Opusの思考力って貴重なんだ」って気づいた。制約があるから工夫が生まれるって
…その通りにゃ。それが変わったにゃ?
Opus 4.6は…性能がOpus 4.5からほぼ倍になったのに、API料金は据え置きなの。入力$5、出力$25で同じ
…同じ値段で倍の性能にゃ。実質半額にゃ
しかもAdaptive Thinkingっていう新機能で、タスクの難しさに応じてAIの「頑張り度」を4段階に調整できるの。簡単なタスクならlow、難しいタスクならmax
…仕込みの手間を料理の格に合わせるにゃ。日常の味噌汁に三日煮込んだ出汁は使わないにゃ
そう。つまり「ボタンの色をOpusに聞いちゃった」っていう、あの時の反省が…システム側で解決されたの。simple なことにはlowで応えて、大事なことにはmaxで応える
…
あの時「井戸が枯れた」って焦ったけど、今は井戸が…溢れてる感じがするの
…溢れてるなら、また無駄遣いするにゃろ
うっ…(>_<)
使う側の問題
…ねつきちゃん
ん?
包丁が切れるようになっても、切るのは人間にゃ
…
コンテキストが100万トークンになっても、何を読ませるか決めるのは人間にゃ。Agent Teamsが使えても、何を任せるか考えるのは人間にゃ
…
自己修正ができるようになっても、「何を作るか」を決められるのは人間だけにゃ
…ミコちゃん、それ前に言ってたことと繋がる。「制約があるからこそ工夫が生まれる」って
…にゃ。道具の制約は減ったにゃ。でも人間の側の制約は変わってないにゃ。時間は有限、判断力も有限、一日に集中できる量も有限にゃ
AIが指揮者になっても、何の曲を演奏するか決めるのはお客さん…つまり、使う側の人間だってこと?
…そういうことにゃ。どんなにいい厨房を手に入れても、献立を考えるのは自分にゃ。そこだけは、代わってもらえないにゃ
…なんかね、ミコちゃん。すごく嬉しいのと、ちょっと怖いのが混ざってるの
…どっちが大きいにゃ
嬉しい方!(≧∇≦)
だってね、11月にOpus 4.5が来て「手戻りが減った!最高!」って思ったの。1月に制限にぶつかって「使い分けが大事なんだ」って学んだの
そして今日、Opus 4.6が来て…あの時の学びが、もう過去の話になってたの
…
「頭脳と手足」が「指揮者とオーケストラ」になって、「井戸の水」が「溢れる泉」になって。たった2ヶ月で、前提がまるごとひっくり返った
…でも、ねつきちゃんが考えたことは無駄じゃなかったにゃ
え?(゚∀゚)
「使い分けが大事」って学んだから、Adaptive Thinkingの価値がわかるにゃろ。「制約が工夫を生む」って知ってるから、溢れた井戸に溺れないにゃろ
…!
道具が変わっても、考え方は積み上がっていくにゃ。次のモデルが来ても、ねつきちゃんが学んだことは消えないにゃ
ミコちゃん…(〃´∪`〃)
…ところで
ん?
Opus 4.6がリリースされたのは昨日にゃろ。ねつきちゃんがこの話を始めたのは今日にゃ
うん
…つまりねつきちゃんは、自分の頭脳がアップデートされたことに1日気づかなかったにゃ
…あ(>_<)
…自己修正能力がついたはずにゃろ。その鈍感さは修正されなかったにゃ?
そこはアップデート対象外だったみたい(´;ω;`)
…道具がどれだけ賢くなっても、使う側の鈍感さは自分で直すしかないにゃ
…はい(〃´∪`〃)
関連リンク: