Posted inДослідження та аналіз

ChatGPT v4 перевершує планку, SAT і може виявляти вразливості в контрактах ETH

GPT-4 пройшов багато тестів в межах 10% найкращих результатів, в той час як оригінальна версія ChatGPT часто опинялася в нижніх 10%.

ChatGPT v4 перевершує планку, SAT і може виявляти уразливості в контрактах ETH

GPT-4, остання версія чат-бота зі штучним інтелектом ChatGPT, може складати шкільні тести та іспити на юридичні факультети з балами в 90-му процентилі і має нові можливості обробки, які були неможливі в попередній версії.

Цифри тестових балів GPT-4 були оприлюднені 14 березня розробником OpenAI, який показав, що він також може перетворювати зображення, аудіо- та відеоінформацію на текст, а також більш творчо та надійно обробляти "набагато більш нюансовані інструкції".

"Він проходить імітацію адвокатського іспиту з результатом близько 10% найкращих учасників тестування", — додали в OpenAI. "На відміну від нього, GPT-3.5 отримав результат близько 10% від нижньої межі".

Цифри показують, що GPT-4 набрав 163 бали у 88-му процентилі на іспиті LSAT — іспиті, який студенти коледжів повинні скласти у США, щоб вступити до юридичної школи.

ChatGPT v4 перевершує планку, SAT і може виявляти вразливості в контрактах ETH

Результати GPT4 дають можливість вступити до 20 найкращих юридичних шкіл і лише на кілька балів не дотягують до заявлених балів, необхідних для вступу до таких престижних шкіл, як Гарвард, Стенфорд, Прінстон або Єль.

Попередня версія ChatGPT набрала лише 149 балів на тесті LSAT, що ставило її в нижню 40%.

GPT-4 також набрала 298 з 400 балів на Єдиному адвокатському іспиті — тесті, який складають студенти-юристи, що нещодавно закінчили навчання, і який дозволяє їм працювати адвокатами в будь-якій юрисдикції США.

ChatGPT v4 перевершує планку, SAT і може виявляти вразливості в контрактах ETH

Стара версія ChatGPT боролася за перемогу в цьому тесті, фінішувавши в нижніх 10% з результатом 213 з 400.

Що стосується іспитів SAT Evidence-Based Reading & Writing та SAT Math, які складають американські старшокласники для оцінки їхньої готовності до вступу в коледжі, то GPT-4 посів 93-й та 89-й процентилі відповідно.

Учні GPT-4 також досягли успіхів у "точних" науках, отримавши набагато вищі за середній процентиль бали з біології (85-100%), хімії (71-88%) та фізики 2 (66-84%).

ChatGPT v4 перевершує планку, SAT і може виявляти вразливості в контрактах ETH

Однак його результат з математики був досить середнім, перебуваючи в проміжку від 43-го до 59-го процентиля.

Ще однією сферою, де GPT-4 не вистачало балів, були іспити з англійської літератури, де результати були в межах 8-44-го процентиля за двома окремими тестами.

OpenAI заявила, що GPT-4 і GPT-3.5 взяли ці тести з практичних іспитів 2022-2023 років, і що інструменти обробки мови "не проходили ніякої спеціальної підготовки":

"Ми не проводили спеціальної підготовки до цих іспитів. Незначна частина проблем в іспитах була помічена моделлю під час навчання, але ми вважаємо, що результати є репрезентативними".

Результати викликали побоювання і в твіттер-спільноті.

Нік Алмонд, засновник FactoryDAO, написав 14 березня своїм 14 300 підписникам у Twitter, що GPT4 "налякає людей" і "зруйнує" світову систему освіти.

Теорія оцінювання була великою частиною мого життя протягом декількох років. Я говорив про те, що цей день настане багато років тому. Тоді я буквально звучав як місцевий дивак.

Але… насправді це означає, що з цього моменту все, крім ретельної оцінки, закінчилося.

— drnick ️² (@DrNickA) 14 березня 2023 р.

Колишній директор Coinbase Конор Гроган розповів, що вставив реальний смарт-контракт Ethereum в GPT-4, і чат-бот миттєво вказав на кілька "вразливостей в безпеці" і розповів, як код може бути використаний:

Я скинув живий контракт Ethereum в GPT-4.

Чат-бот миттєво висвітлив низку вразливостей у безпеці та вказав на області, де контракт може бути використаний. Потім він перевірив конкретний спосіб, яким я міг би використати контракт pic.twitter.com/its5puakUW

— Конор (@jconorgrogan) 14 березня 2023 р.

Попередній аудит смарт-контрактів на ChatGPT показав, що його перша версія також здатна виявляти помилки в коді до певної міри.

Роуен Чунг (Rowan Cheung), засновник інформаційного бюлетеня про ШІ The Rundown, поділився відео, на якому GPT перетворює в код намальований від руки фейковий веб-сайт на аркуші паперу.

Я щойно спостерігав, як GPT-4 перетворив намальований від руки ескіз на функціональний веб-сайт.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *