Міжнародна команда науковців перевірила можливості провідних моделей штучного інтелекту за допомогою знаменитого тесту Струпа, який психологи десятиліттями використовують для оцінки концентрації уваги. Результати виявилися доволі несподіваними: що довшим ставало завдання, то гірше з ним справлявся ШІ.
Дослідження опубліковано в журналі PNAS Nexus, повідомляє WomanEL.
Як працює тест Струпа
Під час тесту учаснику показують назви кольорів, надруковані чорнилом іншого кольору. Наприклад, слово «червоний» може бути написане синім кольором. Завдання полягає в тому, щоб назвати колір чорнила, а не прочитати саме слово.
Для людини це вимагає пригнічення автоматичної реакції читання та концентрації на інструкції.
Як впорався штучний інтелект
У дослідженні взяли участь моделі GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 та Gemini 2.5.
Коли списки складалися лише з п’яти слів, усі системи демонстрували високі результати. Однак зі збільшенням кількості завдань точність різко знижувалася.
Зокрема, GPT-4o правильно виконувала 91% завдань у короткому тесті з п’яти слів. Для списку з десяти слів цей показник впав до 57%, а при сорока словах — лише до 15%.
Схожа ситуація спостерігалася й у інших моделей. Claude 3.5 Sonnet зберігала високу точність до приблизно 20 слів, після чого її результат також різко погіршувався.
Чому так відбувається
На думку авторів роботи, мовні моделі поступово втрачають фокус на початковій інструкції та повертаються до поведінки, яка була найсильніше закладена під час навчання — читання тексту.
Саме тому зі збільшенням обсягу завдання ШІ дедалі частіше починає реагувати на слова, а не на колір, як того вимагають правила тесту.
Дослідники наголошують, що ця особливість суттєво відрізняє сучасний штучний інтелект від людського мозку, який здатний тривалий час підтримувати довільну увагу та дотримуватися поставленої інструкції навіть під час монотонних завдань.
Також дізнайтеся, як ШІ змінює стандарти краси і створює проблему для пластичних хірургів.
