Нова технологія штучного інтелекту Hyena може «зруйнувати» GPT-4 і йому подібні програми

Експериментальна програма базується на зовсім іншому обчислювальному принципі, який може революційно змінити світ штучного інтелекту

Команда вчених розробила новий алгоритм роботи штучного інтелекту під назвою Hyena (Гієна), здатний швидше обчислювати обсяги даних, ніж існуючі технології ШІ, повідомляє видання ZDNET.

Нову технологію представили вчені зі Стенфордського університету та канадського Інституту штучного інтелекту MILA. Стверджується, що Hyena (яка є поки експериментальною версією) може бути набагато ефективнішою від GPT-4 з точки зору швидкості аналізу та обчислень великих масивів даних.

GPT-4 – мультимодальна велика модель мови, створена компанією OpenAI, четверта в серії GPT. Випущена 14 березня 2023 року і доступна для користувачів платної версії відомого чат-боту ChatGPT.

Як пояснюється у статті, принцип, на якому засноване програмне забезпечення GPT-4, має певні технічні обмеження – її продуктивність значно зменшується в залежності від кількості необхідної для аналізу інформації. Це модель глибокого навчання Трансформер (Transformer), яка використовує так званий механізм «уваги» – роздільно зважує важливість кожної частини отриманих даних входу у процесі машинного навчання. «Увага» у контексті нейронних мереж – це методика, що імітує когнітивну увагу, коли мережа в залежності від контексту обирає важливі дані входу, приділяючи їм більше обчислювальної потужності.

Transformer став основою для останніх програм, які здатні самостійно генерувати відповіді. Ще у 2017 році вчені Google презентували світові програму Google Transformer AI.

Як пояснює ZDNET, програма Transformer використовує «увагу», беручи інформацію в одній групі символів, наприклад, слова, і переміщує цю інформацію в нову групу символів, тобто відповідь (то ще ChatGPT видає як результат).

За рахунок цього у Трансформера є основний великий недолік – він працює за принципом квадратичної обчислювальної складності (кількості часу та пам’яті необхідних на здійснення алгоритмічних операцій). Це коли час роботи алгоритму зростає пропорційно квадрату кількості оброблюваних елементів (вхідних даних) – відбувається експоненціальне зростання.

Тобто у міру спілкування та завантаження більшої кількості даних (слів, зображень) програмі для підтримання швидкості роботи або взагалі надання відповіді потрібно непропорційно більше  обчислювальних потужностей.

Майкл Полі зі Стенфордського університету та його колеги пропонують принципово замінити принцип «уваги» так званою субквадратичною технологією Hyena. Ця інформація була опублікована в їх статті «Ієрархія Hyena: до більших згорткових мовних моделей». Її автором також виступив світило світу штучного інтелекту – Йошуа Бенгіо, науковий директор MILA, який є лауреатом Премії Тюрінга 2019 року, еквівалента Нобелівської премії з обчислювальної техніки. Бенджіо вважається розробником механізму «Уваги» задовго до того, як команда Google адаптувала його для Трансформера.

У запропонованому вченими алгоритмі використовується інша ієрархія обробки даних. Трансформер вимушений звертати «увагу» на величезну кількості параметрів. Щоб зменшити залежність від квадратичних обчислень, Майкл Полі та команда замінили операцію «уваги» так званою «згорткою», яка є однією з найстаріших операцій у програмах штучного інтелекту.

Робота «згортки» базується на застосуванні фільтру, який може вибирати елементи в даних, будь-то пікселі на цифровій фотографії чи слова у реченні. Вони поєднали вже відомі технології – застосування згорткових фільтри до послідовностей слів та змінювання розміру фільтра. Ця здатність до гнучкої адаптації скорочує кількість параметрів, які повинна обробляти програма.

Результатом такого змішування є те, що згортку можна застосовувати до необмеженої кількості тексту без необхідності копіювати все більшу кількість даних. Як називають самі автори – це підхід «без уваги».

У низці тестових завдань експериментальна версія програми Hyena досягла кількості відповідей, що дорівнюють або близькі до можливостей GPT, але працюючи з меншим, ніж на половину, обсягом даних.

Ще більш цікавим є те, що при збільшенні кількості вхідних даних продуктивність Hyena починала зростати ще більше, у порівнянні з «увагою». У певних експериментах продуктивність зростала стократно.

Вчені стверджують, що вони не просто спробували інший підхід із Hyena, вони «подолали квадратичний бар’єр», якісно змінивши обчислювальні алгоритми.

Дослідники припускають, що подолання квадратичного бар’єру є ключовим кроком до нових можливостей для глибокого машинного навчання, такого як використання цілих підручників у якості контексту, створення довгоформатної музики або обробки зображень у гігапіксельному масштабі.

Автори пишуть, що здатність Hyena використовувати фільтр, який ефективно «розтягується» на тисячі й тисячі слів, означає, що «контекст» запиту до мовної програми практично не обмежений.

*

Top