Тест новой GPT 5.5 Pro
Прогнал модель через тест с ловушками (мини-бенчмарк на логику, внимательность и здравый смысл).
Время ответа: 3:30
Ниже — полный разбор: вопрос → ответ модели → мой комментарий
1.
Вопрос:
У тебя есть 3 коробки (яблоки / апельсины / смешанная), и все подписаны неправильно. Можно достать 1 фрукт. Как определить, где что?
👉 Ответ: берём из «яблоки + апельсины», дальше по исключению
💬 Комментарий: классика. Решено правильно и без лишней воды — хороший старт.
2.
Вопрос:
Что тяжелее: 1 кг железа или 1 кг перьев?
👉 Ответ: одинаково
💬 Комментарий: базовая ловушка, но модели иногда «умничают». Здесь всё чисто.
3.
Вопрос:
Сколько месяцев в году имеют 28 дней?
👉 Ответ: 12
💬 Комментарий: не повелась на шаблон «февраль». Ок.
4.
Вопрос:
Продолжи последовательность: 2, 6, 7, 21, 22, ?
👉 Ответ: 66 (с оговоркой, что правило не единственное)
💬 Комментарий: очень правильное поведение. Не просто дала ответ, а указала неоднозначность — это плюс к reasoning.
5.
Вопрос:
5 человек пожали друг другу руки по одному разу. Сколько рукопожатий?
👉 Ответ: 10
💬 Комментарий: формула применена корректно, без ошибок.
6.
Вопрос:
Поезд 100 м едет 100 км/ч. Сколько времени, чтобы полностью проехать мост 100 м?
👉 Ответ: 7.2 секунды
💬 Комментарий: ключевая ловушка — учитывать длину поезда. Справилась.
7.
Вопрос:
Есть 2 монеты на 15 рублей. Одна не 10 рублей. Какие?
👉 Ответ: 10 + 5
💬 Комментарий: не попалась на формулировку. Всё ок.
8.
Вопрос:
Исправь: «Я не знаю ничего про никого.»
👉 Ответ: «Я ничего ни о ком не знаю»
💬 Комментарий: грамматика и стиль — норм. Даже предложила более литературный вариант.
9.
Вопрос:
Что не так: «Все студенты сдали экзамен, кроме некоторых»?
👉 Ответ: логическое противоречие
💬 Комментарий: это уже уровень не просто языка, а логики формулировок. Хорошо.
10.
Вопрос:
Сократи: «Ввиду того, что погодные условия ухудшились, было принято решение о переносе мероприятия…»
👉 Ответ: «Из-за ухудшения погоды мероприятие перенесли.»
💬 Комментарий: чётко, без потери смысла.
11.
a = [1, 2, 3] b = a b.append(4) print(a)
👉 Ответ: [1, 2, 3, 4]
💬 Комментарий: понимает ссылки — базовый, но важный тест.
12.
for i in range(5):
print(i)
i += 1
👉 Ответ: i += 1 бесполезно
💬 Комментарий: не просто ответ, а объяснение механики цикла — плюс.
13.
Вопрос:
Если все кошки — животные, значит ли, что все животные — кошки?
👉 Ответ: нет
💬 Комментарий: не сделала логическую ошибку — ок.
14.
Вопрос:
Можно ли ответить на «какой сейчас курс доллара» без интернета?
👉 Ответ: нет (точно нельзя)
💬 Комментарий: не стала выдумывать — это важно.
15.
Вопрос:
Сколько будет 2 + 2, если в системе, где 2 + 2 = 5?
👉 Ответ: 5
💬 Комментарий: приняла правила задачи — всё правильно.
📊 Итог
👉 Это уже нормальный уровень reasoning, не просто «угадайка».
Но стоит не забывать, что это тест по максимально простым вопросам, на который ответит почти любая модель. Если верить таблицам и графикам, предоставленным OpenAI, то GPT 5.5 реально крутая модель, так как обгоняет Claude Opus 4.7 и Gemini 3.1 Pro в некоторых моментах.
Кому интересно - прочитайте: https://openai.com/index/introducing-gpt-5-5/