Appleの最新のAI研究は、「推論」モデルの誇大広告の中心に襲われます

Appleは、「思考の幻想：問題の複雑さのレンズによる推論モデルの強みと限界を理解する」というタイトルの画期的な論文でAIの研究コミュニティを揺さぶったばかりです。 MathやGSM8Kなどの潜在的に歪んだベンチマーク（多くのモデルが記憶されている疑いがある）に依存する代わりに、抑制されたスケーラブルなロジックパズル（ハノイの塔、川の交差、世界をブロックするなど）を選択して、真の推論行動を隔離しました。

そして結果は？ Claude-3.5 Sonnet-Thinking、Deepseek-R1、Gemini 1.5 Pro Thinking、またはOpenaiのO1/O3-Miniなど、今日の最も誇大宣伝されたモデルにはきれいな絵を描くことはありません。

Appleは誇大広告に対抗しました
によるu/gamingvortex01で特異点

重要な調査結果

Appleの実験は、タスクの複雑さに基づいて3つの異なる「推論体制」を明らかにしています。

低い複雑さ：通常のLLMS（チェーンのような推論テクニックなし）は、実際には推論のために販売されているモデルよりも優れたパフォーマンスを発揮しました。
中程度の複雑さ：これは、推論モデルが輝くスイートスポットであり、中間ステップを明示的にレイアウトすることでパフォーマンスを向上させます。
高い複雑さ：すべてのモデルが失敗しました。少しだけではありませんが、壊滅的に。問題の複雑さが特定のしきい値に達すると、パフォーマンスはほぼゼロに低下しました。

さらに厄介なことに、タスクが難しくなったため、推論モデルが実際に推論の取り組みを減らしました。 Appleは、パズルがスケーリングされると、モデルは、十分なトークン予算が残っている場合でも、考え方の応答でトークンを使用したことが少ないことを観察しました。これは、リソースの問題ではなく、コアの制限を示唆しています。

クロード4

これらのモデルは実際には考えていません

おそらく最もひどい洞察：モデルが段階的なアルゴリズムを手渡され、それに従うように求められたとき、それらはまだ同じ複雑さのブレークポイントで失敗しました。これは、明示的な論理的手順を確実に模倣することさえできなかったことを意味します。彼らはつまずいただけではありませんでした。基本的には、プッシュされたときに基本的なロジックを一般化または実行することはできませんでした。

要するに、彼らは理由はありません。彼らは模倣します。

Reddit、Hacker News、およびLinkedInを越えて、評決は迅速でした。

「これらのモデルは、実際には意味のある意味で推論するものではありません。回答をする前に「考え」を書き出すことができる非常に洗練されたパターンマッチャーです。」

「考え方は幻想です。オウムに計算機を与えると、数学の問題を暗唱することに感銘を受けたようなものです。」

これらの反応は、Yann Lecun（MetaのチーフAI科学者）やその他が警告しているものと整合しています。今日のLLMは自動回帰アーキテクチャによって制限されています。彼らは低から中の複雑さのタスクでインテリジェンスをシミュレートすることができますが、真の一般化が必要なときに崩れます。

これがAIの将来にとって重要な理由です

Appleの研究は単なる批評ではありません。これは、推論に焦点を当てたAIモデルが立っている場所の高解像度のスナップショットであり、それらが不足している場所です。過去18か月間にわたるモデルトレーニングを支配している考え方のトレンド全体に疑問を投げかけています。

意味：

AGIは単なるスケーリングの問題ではありません：問題でより多くのパラメーター、トークン、またはトレーニングデータを投げることは、一般的なインテリジェンスを生成しません。
ハイブリッドシステムが不可欠かもしれません：Appleの結果は、ニューラルネットワークと象徴的な推論、長期記憶、および構造化された世界モデルを組み合わせたモデルの増加をサポートしています。
製品デザインのリスク：推論層の強化（検索された生成やマルチエージェント計画など）に大きく賭ける開発者は、これらのパフォーマンスの崖を認め、それらの周りに計画を立てなければなりません。

AIが考える準備ができている「幻想」

論文のタイトルは挑発的なだけではありません。それは正確です。 Appleが暴露しているのは、推論モデルの誇大広告の多くの背後にある壊れやすい足場です。最先端のLLMでさえ、それらが示されているアルゴリズムを適用できず、複雑なパズルの構造を誤解し、タスクが難しくなるにつれて思考の努力を減らします。それは知性ではありません。それはパフォーマンスシアターです。

この調査では、推論は絶望的ではないと主張しているが、今日のモデルがはしごをAGIに登っていないことをしっかりと思い出させてくれます。彼らは彼らが考えているように見えるのがとても上手です - それが本当に重要である間は。

これは、研究者だけでなく、複雑なタスクをLLMSに依存している人にとっては、ターニングポイントである必要があります。

続きを読む：Apple Watchの心拍数ゾーン：説明

1。トークンエフォルトの内訳と「あきらめ」効果

パズルの複雑さが増すと、推論モデル（LRM）は最初はより多くのトークンを使用します - より深い考えを誤って使用しますが、複雑さの天井に当たると、推論の痕跡は劇的に縮小します。言い換えれば、彼らは解決策を粉砕するのではなく、「あきらめる」。

Appleは、これを予算節約としてではなく、モデルのアーキテクチャが負荷の下で持続的な推論を防ぐことを防ぐ固有のスケーリング障害として解釈します。

2。3つの明確な複雑さレジーム

Appleの推論パフォーマンスの分類は、タスクの複雑さを介した厳しい移行を示しています。

低い複雑さ
- 考え方のない標準LLMSはLRMを上回ります。
- 推論モデルは簡単なタスクを考えすぎています。彼らは答えを見つけてから、間違ったパスを介してダブルバックし、パフォーマンスと効率を失います。
中程度の複雑さ
- LRMSはここでエッジを獲得します。彼らは、最終的に正解に到達するために、トークンを消費する推論の手順を戦略的に使用します。
高い複雑さ
- 突然の崩壊：すべてのモデルでほぼゼロの精度、推論が包括的かどうか。
- 複雑なタスクは、考え方の深さに関係なく、完全な障害を引き起こします。

3。アルゴリズムの盲点

完全なパズルソービングアルゴリズム（例えば、ハノイの塔の手順）が提供された場合でも、モデルは特定のしきい値を超えて故障しました。明示的なロジックを確実に実装することができませんでした。これは、チェーンオブが選択するためにより多くの構造を単に必要とするという考えと矛盾しています。

4.より広いコンテキストとコミュニティの反応

オンラインフォーラムとAIの議論を通じて、評決は一貫しています。

「考え方は幻想です。オウムに計算機を与えると、数学の問題を暗唱することに感銘を受けたようなものです。」

これらの反応は、多くのAIの専門家が警告しているものと一致しています。今日のLLMは、自己回帰アーキテクチャによって制限されています。彼らは低から中の複雑さのタスクでインテリジェンスをシミュレートすることができますが、真の一般化が必要なときに崩れます。

5。他のモデル調査結果への接続

Deepseek-R1は、ベンチマークでのパフォーマンスとトークンの使用について称賛されていますが、真の一般化が必要なロジックタスクで同じ重要なボトルネックを示します。

圧縮されたチェーンのテクニックのような最近の進歩は、パフォーマンスを失うことなく推論を合理化することを目的としていますが、Appleの結果は、深さと複雑さにハードな建築上の天井がある可能性が高いことを示唆しています。

なぜこれが重要なのか

論文はそれを強調しています：

推論強度は境界があります。より多くのレイヤーまたはトークンは、より良いロジックを保証するものではありません。
Agiは、ブルートを強化するチェーンのチェーンによって出現しません。代替戦略（シンボリックモジュール、メモリシステム、ハイブリッドエージェント）が必要です。
製品への影響：COT（マルチステップ計画エージェントなど）に依存するシステムの場合、障害モードは単に可能ではありません。これらは大規模に避けられません。

概要表

段階	標準LLM	推論モデル（LRM）
低い複雑さ	迅速かつ正確 - デフォルトで勝ちます	考えすぎ、精度が低くなります
中程度の複雑さ	闘争	エクセル、レバレッジコットとリフレクション
高い複雑さ	ほぼゼロの精度	クラッシュ、推論努力が崩壊します

2025年にPCに最適なAIツール

PC用のAIツールは2025年に劇的に変換されました。ChatGPT-4OやMicrosoft Copilotなどの上級アシスタントからGrok-3やPrplexity AIなどの革新的な新人まで、今日のAIソフトウェアは役に立つだけではありません。現在、無料のツールでもプレミアムオプションに匹敵しています。多くは、Windows 11の新しいCopilot+機能と最新のRyzen AIおよびSnapdragon X搭載のPC用に最適化されています。

AIの風景もよりパーソナライズされています。 BrainaやSiderなどのツールは地元で完全に制御できますが、PrperxityとGeminiは高速でクラウド駆動の研究とマルチモーダル入力を提供します。学生、開発者、コンテンツクリエーター、またはビジネスユーザーであろうと、ニーズに合わせたツールがありますが、彼らは賢くなっているだけです。

2025年の新しいハイライト

Windows 11 25H2：アプリ間で深く統合されたCopilotによるAI-First Update
ai-optimized PCS：Snapdragon X、Ryzen AI Max+、およびRTX 5090がローカルAIパワーを高める
困惑AI：クラス最高のAI検索とアシスタントコンボ - 今ではWindowsとMobileで
XiaによるGrok-3：Elon Muskのモデルは、ベンチマークの推論でGPT-4oを上回ります
Mistrali AI：強力な新しい開発コードアシスタントを備えたオープンソースリーダー
Braina：地元で動作し、プライバシーを尊重するフル機能の仮想アシスタント

PC用のトップAIツール（2025年更新）

chatgpt-4o：高速、マルチモーダル、そしてWindowsデスクトップアプリを介して無料のユーザーが利用できるようになりました
Microsoft Copilot：リコールとAI搭載のファイル検索を備えたWindows11およびOfficeアプリにシームレスに埋め込まれています
困惑AI：1つのツールでWeb検索とアシスタントを組み合わせます。 GPT-4O、Claude 3、Gemini、および独自のモデルを使用します
Jasper AI：規模のブランドコンテンツを作成するマーケティング担当者やチームのためのまだ一流のツール
Braina：オフライン機能とスマートデスクトップ統合を備えたプライバシー中心のアシスタント
Grok-3：深い推論と強力な現実世界の知識を持つXaiからのマルチモーダル、Web接続AI
ミストラル・デヴァストラル：Github CopilotとDevinに匹敵するオープンソースのコーディングアシスタント
ページAI：複数のモデル（GPT-4O、Claude、Gemini）とファイルチャットをサポートするサイドバースタイルのアシスタント
ジェミニ1.5ウルトラ：速い応答、深いコンテキストメモリ、マルチモーダル入力で知られているGoogleの最高のAI

新しいPCハードウェア用に最適化されたAIツール

特殊なNPU（ニューラル加工ユニット）のおかげで、PCSのAIパフォーマンスは急上昇しています。 Snapdragon X Elite、Ryzen AI 9 HX370、およびIntel Core Ultra Processorsを備えた最新のCopilot+ PCは、速いローカル処理のために45+トップを提供します。のようなデバイスAsus Proart P16、Microsoft Surfaceラップトップ、そしてHP Zbook UltraAI-Readyハードウェアで充電をリードしています。

新しいトレンド：PCのAIで何が変化しているのか

マルチモーダルモデル：GPT-4O、GEMINI 1.5 ULTRA、およびGROK-3は、音声、画像、テキスト、ビデオを同時に処理する
プライバシーとローカルAI：BrainaおよびMistralツールを使用すると、クラウド接続なしでタスクを実行できます
検索中のAI：困惑、副操縦士とのbing、およびyou.com
AIコーディングブーム：Cursor、Devstral、Devinなどのツールは、PCのソフトウェア開発を再定義します

PCに適切なAIツールを選択します

選択したツールは、必要なものによって異なります。作家とマーケティング担当者は、JasperとChatGpt-4oに引き寄せられる場合があります。開発者は、ローカルワークフローのためにカーソル、ミストラルの開発、およびBrainaに目を向けています。検索と調査のためのより賢い方法が必要な場合は、PrperxityとGrok-3があなたの頼りになる選択肢です。また、Windowsに深く統合されたオールインワンソリューションのために、CopilotはMicrosoftエコシステムでは比類のないままです。