ChatGPT тепер може говорити, слухати і бачити зображення

OpenAI співпрацював з професійними акторами, щоб навчити моделі розмовляти.

Сфера генеративного штучного інтелекту (ШІ) продовжує нагріватися, оскільки OpenAI представила GPT-4V, модель, здатну бачити, і мультимодальні розмовні режими для своєї системи ChatGPT.

З новими оновленнями, оголошеними 25 вересня, користувачі ChatGPT зможуть залучати чат-ботів до розмов. Моделі, на яких працює ChatGPT, GPT-3.5 і GPT-4, тепер можуть розуміти запити простою мовою і відповідати одним з п’яти різних голосів.

ChatGPT тепер може бачити, чути і говорити. Протягом наступних двох тижнів користувачі Plus зможуть вести голосові розмови з ChatGPT (iOS і Android) і включати зображення в розмови (всі платформи). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb

– OpenAI (@OpenAI) 25 вересня 2023 р.

Згідно з повідомленням у блозі OpenAI, цей новий мультимодальний інтерфейс дозволить користувачам взаємодіяти з ChatGPT новими способами:

ChatGPT тепер може переглядати Інтернет, не обмежуючись інформацією з 2021 року

Оновлення браузера поки що доступне лише для абонентів тарифних планів Plus та Enterprise, але незабаром воно буде доступне для всіх користувачів,…
ChatGPT тепер може отримати доступ до Інтернету за допомогою нових плагінів OpenAI

OpenAI заявила, що спочатку розгортає плагіни для невеликої групи користувачів, щоб вивчити їх реальне використання і вплив , перш ніж розширити доступ…

"Сфотографуйте визначну пам’ятку під час подорожі і поговоріть про те, що в ній цікавого. Коли ви вдома, сфотографуйте холодильник і комору, щоб зрозуміти, що буде на вечерю (і поставте додаткові запитання, щоб отримати покроковий рецепт). Після вечері допоможіть дитині розв’язати математичну задачу: сфотографуйте її, обведіть і попросіть поділитися підказками з вами обома".

Оновлена версія ChatGPT буде доступна для користувачів Plus і Enterprise на мобільних платформах протягом наступних двох тижнів, а розробники та інші користувачі отримають доступ до неї "незабаром після цього".

Мультимодальне оновлення ChatGPT відбувається одразу після запуску DALL-E 3, найсучаснішої системи генерації зображень від OpenAI.

За даними OpenAI, DALL-E 3 також інтегрує обробку природної мови. Це дозволяє користувачам розмовляти з моделлю, щоб точно налаштувати результати, а також інтегрувати ChatGPT для допомоги у створенні підказок до зображень.

До інших новин у сфері ШІ: 25 вересня конкурент OpenAI, компанія Anthropic, оголосила про партнерство з Amazon. Як повідомляє Cointelegraph, Amazon інвестує до 4 мільярдів доларів у хмарні сервіси та доступ до апаратного забезпечення. У свою чергу Anthropic заявила, що надасть розширену підтримку базової моделі штучного інтелекту Bedrock від Amazon, а також "безпечну кастомізацію і тонку настройку моделі для бізнесу".