Posted inДослідження та аналіз

Можливості ChatGPT погіршуються з віком, стверджує нове дослідження

Деякі відповіді ChatGPT показали, що точність моделі погіршилася за останні кілька місяців, і дослідники не можуть з’ясувати, чому.

Можливості ChatGPT погіршуються з віком, стверджує нове дослідження

Чат-бот ChatGPT від OpenAI на основі штучного інтелекту, схоже, з часом працює все гірше, і дослідники не можуть з’ясувати причину цього.

У дослідженні, опублікованому 18 липня, вчені зі Стенфорда та Берклі виявили, що найновіші моделі ChatGPT стали набагато менш здатними надавати точні відповіді на ідентичну серію запитань протягом декількох місяців.

Автори дослідження не змогли дати чіткої відповіді на питання, чому погіршилися можливості штучного інтелекту чат-бота.

Щоб перевірити, наскільки надійними є різні моделі ChatGPT, дослідники Лінцзяо Чен, Матей Захарія та Джеймс Зоу попросили моделі ChatGPT-3.5 та ChatGPT-4 розв’язати серію математичних задач, відповісти на делікатні запитання, написати нові рядки коду та провести просторові міркування за підказками.

Ми оцінили поведінку #ChatGPT з плином часу і виявили суттєві відмінності у відповідях на *однакові запитання* між червневою версією GPT4 і GPT3.5 та березневою версією. Новіші версії стали гіршими в деяких завданнях. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6

— James Zou (@james_y_zou) 19 липня 2023 р.

Згідно з дослідженням, у березні ChatGPT-4 був здатний ідентифікувати прості числа з точністю 97,6%. У тому ж тесті, проведеному в червні, точність GPT-4 впала до 2,4%.

На противагу цьому, попередня модель GPT-3.5 покращила ідентифікацію простих чисел за той самий проміжок часу.

Коли справа дійшла до генерації рядків нового коду, можливості обох моделей суттєво погіршилися в період з березня по червень.

Дослідження також показало, що відповіді ChatGPT на делікатні питання — з деякими прикладами, що демонструють фокус на етнічну приналежність і стать — згодом стали більш лаконічними, відмовляючись відповідати на них.

Попередні ітерації чат-бота надавали розгорнуту аргументацію, чому він не міг відповісти на певні делікатні запитання. Однак у червні моделі просто вибачилися перед користувачем і відмовилися відповідати.

"Поведінка "одного і того ж" сервісу [великої мовної моделі] може суттєво змінитися за відносно короткий проміжок часу", — пишуть дослідники, наголошуючи на необхідності постійного моніторингу якості ШІ-моделі.

Дослідники рекомендували користувачам і компаніям, які покладаються на послуги LLM як на компонент своїх робочих процесів, впровадити певну форму аналізу моніторингу, щоб переконатися, що чат-боти залишаються в курсі подій.

6 червня OpenAI оприлюднила плани щодо створення команди, яка допоможе управляти ризиками, що можуть виникнути в результаті створення суперінтелектуальної системи ШІ, яка, як очікується, з’явиться впродовж десятиліття.

Збережіть цю статтю як NFT, щоб зберегти цей момент в історії і показати свою підтримку незалежній журналістиці в криптопросторі.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *