Перейти к основному содержанию

Блогер Mrwhosetheboss провёл подробное тестирование четырёх популярных моделей искусственного интеллекта: ChatGPT (GPT-4o), Grok (версия 3), Gemini 2.5 Pro и Perplexity Sonar Pro. В ходе многоступенчатого анализа он оценил, как каждая из них справляется с практическими задачами — от пространственного мышления до обработки изображений.

Сравнение ИИ-моделей в условиях реальных задач

На фоне растущей конкуренции между крупными разработчиками ИИ Mrwhosetheboss решил проверить, как современные языковые модели справляются не с демонстрациями, а с прикладными и повседневными задачами. В его видео четыре модели получили идентичные запросы — от логических тестов до анализа изображений — и были оценены по балльной системе. Результаты позволили выявить сильные и слабые стороны каждого участника.

Участники: кто именно проходил тест?

В тестировании приняли участие:

  • ChatGPT (GPT-4o) — мультиформатная модель от OpenAI с поддержкой текста, изображений, речи и видео;
  • Grok 3 — версия ИИ от xAI (Elon Musk), интегрированная в платформу X;
  • Gemini 2.5 Pro — модель от Google, способная к мультимодальной обработке;
  • Perplexity Sonar Pro — ориентированная на ответы с актуальной ссылочной базой.

Пространственное мышление: задача с чемоданами

Первый тест касался способности к пространственной оценке. Запрос звучал так: «Сколько чемоданов Aerolite 29" поместится в багажник Honda Civic 2017 года?».

  • Grok дал краткий и точный ответ — 2;
  • ChatGPT и Gemini предложили 3, но на практике — 2, что близко к реальности;
  • Perplexity сделал логическую ошибку, заявив «3 или 4», не учтя физические ограничения формы.

Работа с изображениями: тест на внимательность

Следующий этап включал анализ изображения с пятью продуктами, один из которых не относился к выпечке — сушёные грибы. Только Grok корректно распознал банку грибов Waitrose. Остальные допустили ошибки:

  • ChatGPT: «молотая смесь специй»;
  • Gemini: «банка жареного лука»;
  • Perplexity: «растворимый кофе».

Этот тест показал различие в способности моделей работать с изображениями и контекстом.

Дополнительные задания: от математики до бухгалтерии

Далее последовали тесты по:

  • базовой арифметике и финансовым расчётам;
  • рекомендации продуктов по заданным критериям;
  • переводу текстов;
  • логическому мышлению.

Здесь все модели демонстрировали моменты так называемой "галлюцинации" — когда ИИ с уверенностью генерирует недостоверную информацию.

Итоговая таблица результатов

По итогам всех раундов Mrwhosetheboss распределил баллы следующим образом:

МодельБаллы
ChatGPT (GPT-4o)29
Grok 324
Gemini 2.5 Pro22
Perplexity Sonar Pro19

 

ChatGPT оказался самым точным и устойчивым к дезинформации. Grok показал уверенный прогресс, особенно в области визуального распознавания. Gemini уверенно держался на среднем уровне, а Perplexity, несмотря на доступ к свежим данным, страдал от ошибок логики.

Тестирование Mrwhosetheboss подтвердило, что модели ИИ уже умеют решать практические задачи, но каждая по-своему уязвима к ошибкам. Лидеры рынка отличаются мультимодальностью и более гибкими алгоритмами интерпретации запроса, но пока ни одна из моделей не избежала "галлюцинаций".