«Иллюзия мышления»: Apple поставила под сомнение разумность ИИ

Группа учёных из Apple опубликовала исследование под названием «Иллюзия мышления», в котором разобрала, как работают современные языковые модели — такие как OpenAI o1/o3, DeepSeek-R1, Claude 3.7 Sonnet Thinking и Gemini Thinking. Их называют LRM — модели, якобы умеющие рассуждать (Large Reasoning Models).

Главный вывод: даже в «режиме мышления» эти модели не размышляют в прямом смысле. Они просто используют знакомые шаблоны и примеры из своей базы знаний — так, как делали всегда.

Авторы пишут, что несмотря на продвинутые алгоритмы и кажущуюся «саморефлексию», LRM не могут развить универсальные способности к рассуждению. Особенно это становится заметно, когда задача становится чуть сложнее среднего. Это подрывает популярное мнение, что искусственный интеллект близок к настоящему мышлению.

Почему это важно:
Работа вызвала обсуждение не только из-за своих выводов, но и из-за контекста — у самой Apple пока нет сильных продуктов в области ИИ, а тут она критикует лидеров индустрии. Многие расценили публикацию как попытку снизить доверие к OpenAI, Google и Anthropic.

Но даже если отложить споры о мотивах — сама работа интересная. Например, исследователи заметили, что при решении простых задач модели быстро находят верный ответ, но потом зачем-то тратят ресурсы на «перебор» неправильных вариантов. А при более сложных задачах наоборот — сначала ошибаются, и только потом находят правильный путь.

Однако как только сложность задач вырастает сильно — как, например, в классической головоломке «Ханойская башня» с 10 дисками — модели почти всегда проваливаются. Причём увеличение ресурсов (больше вычислений, больше токенов) не помогает: наоборот, система начинает использовать меньше вычислительных шагов, будто «сдаётся» раньше времени.

Ещё один интересный вывод: даже если дать модели готовый алгоритм решения сложной задачи, она может ошибиться и на нём. То есть, модели не просто не умеют размышлять — они иногда даже не способны точно выполнить уже готовый план.

И наконец, выяснилось, что ИИ может быть совершенно непоследовательным. Например, Claude 3.7 успешно решает «Ханойскую башню» с пятью дисками, делая 31 правильный ход подряд. Но при этом проваливается в более простой задаче «Переправа», где всего 11 шагов — и ошибается уже на четвёртом.

Авторы предполагают, что дело может быть в том, что в обучающем корпусе было больше примеров с «башней», чем с «переправой». А значит, модель скорее просто запоминает и повторяет знакомые паттерны, чем действительно рассуждает.

Если ваш запрос к ИИ простой — не включайте режим «рассуждения». Так вы получите более точный ответ быстрее и без лишней траты ресурсов.

«Иллюзия мышления»: Apple поставила под сомнение разумность ИИ

Комментарии

Добавление комментария

Комментарии