Сравнение ИИ-моделей в условиях реальных задач
На фоне растущей конкуренции между крупными разработчиками ИИ Mrwhosetheboss решил проверить, как современные языковые модели справляются не с демонстрациями, а с прикладными и повседневными задачами. В его видео четыре модели получили идентичные запросы — от логических тестов до анализа изображений — и были оценены по балльной системе. Результаты позволили выявить сильные и слабые стороны каждого участника.
Участники: кто именно проходил тест?
В тестировании приняли участие:
- ChatGPT (GPT-4o) — мультиформатная модель от OpenAI с поддержкой текста, изображений, речи и видео;
- Grok 3 — версия ИИ от xAI (Elon Musk), интегрированная в платформу X;
- Gemini 2.5 Pro — модель от Google, способная к мультимодальной обработке;
- Perplexity Sonar Pro — ориентированная на ответы с актуальной ссылочной базой.
Пространственное мышление: задача с чемоданами
Первый тест касался способности к пространственной оценке. Запрос звучал так: «Сколько чемоданов Aerolite 29" поместится в багажник Honda Civic 2017 года?».
- Grok дал краткий и точный ответ — 2;
- ChatGPT и Gemini предложили 3, но на практике — 2, что близко к реальности;
- Perplexity сделал логическую ошибку, заявив «3 или 4», не учтя физические ограничения формы.