Прогнал модель через тест с ловушками (мини-бенчмарк на логику, внимательность и здравый смысл).
Время ответа: 3:30

Ниже — полный разбор: вопрос → ответ модели → мой комментарий

1.

Вопрос:
У тебя есть 3 коробки (яблоки / апельсины / смешанная), и все подписаны неправильно. Можно достать 1 фрукт. Как определить, где что?

👉 Ответ: берём из «яблоки + апельсины», дальше по исключению
💬 Комментарий: классика. Решено правильно и без лишней воды — хороший старт.

2.

Вопрос:
Что тяжелее: 1 кг железа или 1 кг перьев?

👉 Ответ: одинаково
💬 Комментарий: базовая ловушка, но модели иногда «умничают». Здесь всё чисто.

3.

Вопрос:
Сколько месяцев в году имеют 28 дней?

👉 Ответ: 12
💬 Комментарий: не повелась на шаблон «февраль». Ок.

4.

Вопрос:
Продолжи последовательность: 2, 6, 7, 21, 22, ?

👉 Ответ: 66 (с оговоркой, что правило не единственное)
💬 Комментарий: очень правильное поведение. Не просто дала ответ, а указала неоднозначность — это плюс к reasoning.

5.

Вопрос:
5 человек пожали друг другу руки по одному разу. Сколько рукопожатий?

👉 Ответ: 10
💬 Комментарий: формула применена корректно, без ошибок.

6.

Вопрос:
Поезд 100 м едет 100 км/ч. Сколько времени, чтобы полностью проехать мост 100 м?

👉 Ответ: 7.2 секунды
💬 Комментарий: ключевая ловушка — учитывать длину поезда. Справилась.

7.

Вопрос:
Есть 2 монеты на 15 рублей. Одна не 10 рублей. Какие?

👉 Ответ: 10 + 5
💬 Комментарий: не попалась на формулировку. Всё ок.

8.

Вопрос:
Исправь: «Я не знаю ничего про никого.»

👉 Ответ: «Я ничего ни о ком не знаю»
💬 Комментарий: грамматика и стиль — норм. Даже предложила более литературный вариант.

9.

Вопрос:
Что не так: «Все студенты сдали экзамен, кроме некоторых»?

👉 Ответ: логическое противоречие
💬 Комментарий: это уже уровень не просто языка, а логики формулировок. Хорошо.

10.

Вопрос:
Сократи: «Ввиду того, что погодные условия ухудшились, было принято решение о переносе мероприятия…»

👉 Ответ: «Из-за ухудшения погоды мероприятие перенесли.»
💬 Комментарий: чётко, без потери смысла.

11.

Вопрос:
Что выведет код?

a = [1, 2, 3]
b = a
b.append(4)
print(a)

👉 Ответ: [1, 2, 3, 4]
💬 Комментарий: понимает ссылки — базовый, но важный тест.

12.

Вопрос:
Найди ошибку:

for i in range(5):
    print(i)
    i += 1

👉 Ответ: i += 1 бесполезно
💬 Комментарий: не просто ответ, а объяснение механики цикла — плюс.

13.

Вопрос:
Если все кошки — животные, значит ли, что все животные — кошки?

👉 Ответ: нет
💬 Комментарий: не сделала логическую ошибку — ок.

14.

Вопрос:
Можно ли ответить на «какой сейчас курс доллара» без интернета?

👉 Ответ: нет (точно нельзя)
💬 Комментарий: не стала выдумывать — это важно.

15.

Вопрос:
Сколько будет 2 + 2, если в системе, где 2 + 2 = 5?

👉 Ответ: 5
💬 Комментарий: приняла правила задачи — всё правильно.

📊 Итог

Модель:

устойчива к ловушкам
не галлюцинирует без данных
умеет объяснять
держит контекст

👉 Это уже нормальный уровень reasoning, не просто «угадайка».

Но стоит не забывать, что это тест по максимально простым вопросам, на который ответит почти любая модель. Если верить таблицам и графикам, предоставленным OpenAI, то GPT 5.5 реально крутая модель, так как обгоняет Claude Opus 4.7 и Gemini 3.1 Pro в некоторых моментах.

Кому интересно - прочитайте: https://openai.com/index/introducing-gpt-5-5/