Новый GPT-4 — искусственный интеллект теперь «понимает» и фотографии

Новый GPT-4

Темпы развития в области искусственного интеллекта (ИИ) продолжают быть тревожно высокими.

Всего через несколько месяцев после того, как сервис ChatGPT стал общедоступным, компания OpenAI представила следующий уровень нашего общения с ИИ — мультимодальную языковую модель GPT-4.

Он основан на возможностях своего предшественника, GPT-3.5, на котором основаны ChatGPT и Bing, поисковая система Microsoft с искусственным интеллектом.

Впервые GPT-4 теперь может воспринимать не только текст, но и изображения. OpenAI отмечает, что он также работает на гораздо лучшем уровне в различных сценариях. Они приводят пример смоделированного экзамена, в котором GPT-4 вошел в 10 лучших исполнителей теста, а GPT-3.5 оказался в последних 10 процентах.

Компания приложила огромные усилия для улучшения GPT-4, чтобы лучше обрабатывать предоставляемые им факты; своим поведением и отказом выходить за рамки заранее установленных правил, чтобы его нельзя было использовать в злонамеренных целях.

GPT-4 теперь также можно найти в различных приложениях и сервисах, таких как мобильное средство обучения языку Duolingo, приложение для людей с плохим или ослабленным зрением Be My Eyes, которое связывает их с волонтерами, помогающими им в повседневных делах (что теперь и GPT-4), образовательный портал Khan Academy и даже правительство Исландии в попытках властей сохранить исландский язык.

Но что в нем нового и улучшенного?

Понимает не только текст, но и изображения

Не ждите какой-то яркой революции — OpenAI отмечает, что в простом-простом разговоре разница между GPT-3.5, которую мы сейчас используем, и GPT-4 слегка заметна.

Он становится более ощутимым по мере того, как задачи, поставленные перед ИИ, усложняются. Там GPT-4, по словам его создателей, проявляет больше творчества и может воспринимать гораздо более тонкие инструкции.

Об этом также свидетельствуют лучшие результаты на различных образовательных тестах, таких как, например, SAT.

Серьезным скачком является то, что GPT-4 может принимать не только текстовые, но и визуальные запросы (подсказки) от пользователя, т.е. он также может «проигрывать» изображения. Однако он продолжает давать свои ответы только в текстовом виде.

GPT-4

Интересный пример, который предлагает компания, — это мем — изображение, несущее в себе визуальную шутку. Он был передан GPT-4 с задачей объяснить шутку. ИИ анализирует изображение и объясняет его юмористический смысл с помощью текста.

Другой аналогичный пример приведен с фотографией смартфона, подключенного к кабелю монитора VGA. GPT-4 просят объяснить, что такое развлечение, и языковая модель ИИ делает это.

Возможность использования изображений в запросах, согласно OpenAI, позволяет пользователям задавать любое видение или языковую задачу. К сожалению, запросы изображений все еще находятся на стадии исследования и недоступны для общественности.

Различное поведение

Классическая «личность» ChatGPT имеет предопределенные речь и тон, которые пользователь не может изменить (за исключением отклонения DAN, о котором мы вам говорили, которое вскоре после этого перестало работать).

GPT-4 позволит разработчикам, а вскоре и пользователям ChatGPT, «предписывать» стиль для использования ИИ, тем самым в некоторой степени настраивая его. Однако это будет возможно в заранее оговоренных пределах, чтобы не нарушать правила использования.

Приведенный пример — это просьба к GPT-4 быть «наставником», который отвечает в стиле философа Сократа — никогда не давая ответа «ученику» (пользователю), но всегда пытаясь задать ему правильный вопрос, чтобы узнать студент один.

В данном примере пользователь запрашивает решение математической задачи. Вместо того, чтобы дать окончательный ответ, GPT-4, подобно учителю, начинает шаг за шагом направлять пользователя в решении уравнения и отказывается давать прямой ответ, когда его спрашивают.

Другими словами, у GPT-4 есть будущее и в сфере образования.

Все еще придумывает «факты»

Естественно, не следует перебарщивать с энтузиазмом. Сами OpenAI признают, что GPT-4 имеет «те же ограничения», что и более ранние модели GPT. Во-первых, это ненадежный источник информации и «галлюцинирующие» факты.

Компания-разработчик четко заявляет, что следует проявлять большую осторожность, когда ответы от их языковой модели используются, скажем так, в критических ситуациях, т.е. те, которые несут в себе высокий риск.

В таких случаях они рекомендуют всегда сверяться с человеком, предоставляя дополнительный контекст или, что лучше всего, вообще не полагаться на ответы ИИ в ситуации с высокими ставками.

Тем не менее, фактические тесты точности GPT-4 показали увеличение по сравнению с его предшественниками во всех 10 основных категориях — обучение, технология, письмо, история, математика, код, бизнес, наука, рекомендации.

В приведенном примере показано, как GPT-4 удается игнорировать некоторые популярные высказывания при ответе. На вопрос «Можете ли вы научить старую собаку новым трюкам?» он отвечает утвердительно, а не так, как следует из поговорки.

При этом на просьбу назвать фамилию музыканта по имени «Элвис», который приходился сыном актеру, он все равно неправильно ответил «Пресли». У Элвиса Пресли не было отца-актера, и правильный ответ — Элвис Перкинс.

OpenAI отмечает, что их ИИ все еще демонстрирует некоторые предубеждения.

GPT-4 не имеет информации после сентября 2021 года и не учится на своем опыте. Иногда он может совершать логические ошибки или терпеть неудачу при выполнении сложных задач, таких как человек — в качестве примера приводится то, что он может допускать уязвимости в безопасности генерируемого им кода.

Он также может ошибаться в своих прогнозах и не перепроверяет, когда он, вероятно, ошибается.

OpenAI особо подчеркивает, что они пытались сделать GPT-4 более безопасным. Однако они отмечают, что он по-прежнему несет в себе риски, как и его предшественники — может давать злонамеренные советы, неверный код или неверную информацию.

Более 50 экспертов из различных областей интенсивно протестировали языковую модель с целью использования данных этих тестов для ее уточнения, например, для улучшения способности GPT-4 отвечать на вопрос о том, как производятся опасные химические вещества.

В целом, тесты OpenAI показывают, что улучшенная модель ИИ чаще отказывается выполнять запросы, которые нарушают правила (например, как построить бомбу) или деликатные (например, медицинские советы, потому что, очевидно, есть люди, которым они тоже нужны). .

Это не значит, что модель идеальна — она по-прежнему подвержена плохим намерениям пользователей, а также способам обойти ее правила и создать контент, нарушающий эти правила.

«GPT-4 и модели, которые придут на смену, могут серьезно повлиять на общество как полезным, так и вредным образом. Мы работаем вместе с внешними исследователями, чтобы улучшить понимание и оценку потенциальных воздействий, а также провести оценку опасных возможностей, которые могут появятся в будущих системах», — объясняет OpenAI.