Ветеран Windows Дейв Пламмер розвінчує важливий міф про ШІ на ПК, що існує вже 47 років.

Ветеран Windows Дейв Пламмер розвінчує важливий міф про ШІ на ПК, що існує вже 47 років. 1 PDP-11 / Dave Plummer

Відомий розробник програмного забезпечення для Windows Дейв Пламмер запустив нейронну мережу на 47-річному комп’ютері PDP-11.

PDP-11 працює на процесорі з тактовою частотою 6 МГц і має 64 КБ оперативної пам’яті. На цьому комп’ютері Пламмер запускає модель трансформера “Attention 11”, написану мовою асемблера PDP-11 Демієном Бюре. Задача, яку має виконати нейронна мережа, полягає у перевертанні послідовності з 8 цифр, що виглядає досить просто.

Проте після успішного виконання кожного етапу модель повинна засвоїти структурне правило для коректного виконання будь-якого виведення. На думку Пламмера, саме в цьому полягає основна суть навчання сучасних LLM з лінійним виведенням, таких як

“Одна людина бере клас алгоритмів, які нині сприймаються як щось сакральне, і доводить, що їх можна спростити, зрозуміти та реалізувати на системі, що є досить старою, з часів, коли програмне забезпечення виходило з перемикачами та переплетеними в кільця посібниками. Тепер ви знаєте, що це насправді за процес. Це не магія . Це машина, яка постійно оновлює потужність тисяч маленьких зважених зв’язків, щоб наступна відповідь була трохи менш неправильною, ніж попередня”, — зазначає Пламмер.

Незважаючи на використання Attention 11 — одношарового трансформера з однією головкою для концентрації уваги, повністю написаного мовою асемблера PDP-11, Пламмеру все ж доводиться оптимізувати систему з урахуванням її обмежень.

Ця модель має всього 1216 параметрів і використовує обчислення з фіксованою точкою. Її точність обмежена 8 бітами. Кожен цикл оптимізується для того, щоб гарантувати, що модель взагалі завершить навчання.

Ми спостерігаємо за спрощеною анатомією самого процесу навчання. Модель починає з нуля. Спочатку ймовірність помилки дуже висока. Точність коливається, як у людини, яка намагається зібрати меблі IKEA в кузові фургона, що рухається. А потім десь по дорозі формується шаблон. Механізм уваги починає створювати карту зворотного перетворення. І машина перетинає цю невидиму межу від здогадки до знання,” — коментує процес Пламмер.

Йому вдалося досягти 100% точності моделі зі зворотного перетворення чисел приблизно після 350 кроків навчання. Для досягнення цього рівня на PDP-11/44 за допомогою кеш-пам’яті знадобилося близько 3,5 хвилин. За словами Пламмера, сучасний ШІ — це лише механічна технологія з значно покращеним виправленням помилок та масштабними арифметичними обчисленнями.

“Ця стара машина не мислить у якомусь містичному сенсі. Вона просто виконує арифметичні обчислення для оновлення кількох тисяч ретельно збережених чисел. І в цьому вся суть. Привабливість сучасного ШІ в основному полягає в його масштабності. Але сам процес навчання вже повністю реалізовано у мініатюрі,” — підкреслює Пламмер.

На завершення він додає, що в умовах дефіциту обчислювальних ресурсів будь-яка компанія, яка повернеться до принципів ефективності та оптимізації, зможе отримати значну перевагу.

СпецпроєктиРетельне миття підлоги замість пасивного протирання: огляд серії роботів-пилососів Aqua 10 від DreameКоли монтаж починає “задихатися”: яку відеокарту обрати у 2026 році?

Раніше ми писали, що ШІ допо NVIDIA скоротити процес проєктування мікросхем з 10 місяців до однієї ночі. Канадський стартап побудував перший у світі комерційний дата-центр у космосі.

Overviews від розповсюджує дезінформацію у масштабах, катастрофічних для людства, — дослідження

Джерело: Tom’s Hardware

Схожі публікації
2 коментарів
  1. Наталія Романюк каже

    Цікаво побачити, як старі технології допомагають краще зрозуміти сучасний ШІ. Це нагадує, що за будь-якими складними алгоритмами стоїть проста логіка і багато праці. Дякую за цікаву статтю!

    1. Сергій Петренко каже

      Дякую за ваш відгук! Саме так, досвід і базові принципи технологій допомагають краще розкрити потенціал сучасного ШІ. Радий, що стаття була корисною!

Залишити відповідь