April 24

Тест новой GPT 5.5 Pro

Прогнал модель через тест с ловушками (мини-бенчмарк на логику, внимательность и здравый смысл).
Время ответа: 3:30

Ниже — полный разбор: вопрос → ответ модели → мой комментарий


1.

Вопрос:
У тебя есть 3 коробки (яблоки / апельсины / смешанная), и все подписаны неправильно. Можно достать 1 фрукт. Как определить, где что?

👉 Ответ: берём из «яблоки + апельсины», дальше по исключению
💬 Комментарий: классика. Решено правильно и без лишней воды — хороший старт.


2.

Вопрос:
Что тяжелее: 1 кг железа или 1 кг перьев?

👉 Ответ: одинаково
💬 Комментарий: базовая ловушка, но модели иногда «умничают». Здесь всё чисто.


3.

Вопрос:
Сколько месяцев в году имеют 28 дней?

👉 Ответ: 12
💬 Комментарий: не повелась на шаблон «февраль». Ок.


4.

Вопрос:
Продолжи последовательность: 2, 6, 7, 21, 22, ?

👉 Ответ: 66 (с оговоркой, что правило не единственное)
💬 Комментарий: очень правильное поведение. Не просто дала ответ, а указала неоднозначность — это плюс к reasoning.


5.

Вопрос:
5 человек пожали друг другу руки по одному разу. Сколько рукопожатий?

👉 Ответ: 10
💬 Комментарий: формула применена корректно, без ошибок.


6.

Вопрос:
Поезд 100 м едет 100 км/ч. Сколько времени, чтобы полностью проехать мост 100 м?

👉 Ответ: 7.2 секунды
💬 Комментарий: ключевая ловушка — учитывать длину поезда. Справилась.


7.

Вопрос:
Есть 2 монеты на 15 рублей. Одна не 10 рублей. Какие?

👉 Ответ: 10 + 5
💬 Комментарий: не попалась на формулировку. Всё ок.


8.

Вопрос:
Исправь: «Я не знаю ничего про никого.»

👉 Ответ: «Я ничего ни о ком не знаю»
💬 Комментарий: грамматика и стиль — норм. Даже предложила более литературный вариант.


9.

Вопрос:
Что не так: «Все студенты сдали экзамен, кроме некоторых»?

👉 Ответ: логическое противоречие
💬 Комментарий: это уже уровень не просто языка, а логики формулировок. Хорошо.


10.

Вопрос:
Сократи: «Ввиду того, что погодные условия ухудшились, было принято решение о переносе мероприятия…»

👉 Ответ: «Из-за ухудшения погоды мероприятие перенесли.»
💬 Комментарий: чётко, без потери смысла.


11.

Вопрос:
Что выведет код?

a = [1, 2, 3]
b = a
b.append(4)
print(a)

👉 Ответ: [1, 2, 3, 4]
💬 Комментарий: понимает ссылки — базовый, но важный тест.


12.

Вопрос:
Найди ошибку:

for i in range(5):
    print(i)
    i += 1

👉 Ответ: i += 1 бесполезно
💬 Комментарий: не просто ответ, а объяснение механики цикла — плюс.


13.

Вопрос:
Если все кошки — животные, значит ли, что все животные — кошки?

👉 Ответ: нет
💬 Комментарий: не сделала логическую ошибку — ок.


14.

Вопрос:
Можно ли ответить на «какой сейчас курс доллара» без интернета?

👉 Ответ: нет (точно нельзя)
💬 Комментарий: не стала выдумывать — это важно.


15.

Вопрос:
Сколько будет 2 + 2, если в системе, где 2 + 2 = 5?

👉 Ответ: 5
💬 Комментарий: приняла правила задачи — всё правильно.


📊 Итог

Модель:

  • устойчива к ловушкам
  • не галлюцинирует без данных
  • умеет объяснять
  • держит контекст

👉 Это уже нормальный уровень reasoning, не просто «угадайка».


Но стоит не забывать, что это тест по максимально простым вопросам, на который ответит почти любая модель. Если верить таблицам и графикам, предоставленным OpenAI, то GPT 5.5 реально крутая модель, так как обгоняет Claude Opus 4.7 и Gemini 3.1 Pro в некоторых моментах.

Кому интересно - прочитайте: https://openai.com/index/introducing-gpt-5-5/