Нова модель Gemini користується браузером як звичайна людина
Google презентувала нову версію своєї AI-системи — Gemini 2.5 Computer Use, здатну самостійно працювати у браузері, як це робить людина. Модель може відкривати сайти, прокручувати сторінки, вводити текст, заповнювати форми й навіть перетягувати елементи на сторінці. Це дозволяє штучному інтелекту виконувати завдання там, де немає API чи прямого доступу до даних.
Як працює нова модель
Gemini 2.5 Computer Use — це спеціалізована версія моделі Gemini 2.5 Pro, побудована на основі візуального аналізу та логічного міркування. Вона отримує скріншот сторінки та інструкцію користувача, після чого обирає потрібну дію: натиснути кнопку, ввести текст або перейти за посиланням.
Процес побудований у циклі: після кожного кроку модель отримує нове зображення сторінки, аналізує зміни та продовжує виконувати завдання, доки воно не буде завершене. Такий підхід дозволяє Gemini взаємодіяти з будь-яким інтерфейсом, створеним для людей, а не лише з тими, що мають спеціальний технічний доступ.
Цікаво, як ця модель може змінити наш підхід до роботи з веб-сайтами! Уявляю, скільки рутинних завдань можна автоматизувати. Чи можемо ми сподіватися на інтеграцію з популярними платформами в майбутньому?!!
Дорогий Миколо!
Щиро дякую за ваш позитивний відгук! Ми раді, що модель викликала у вас такі захоплюючі думки. Щодо інтеграції з популярними платформами – ми активно працюємо над цим. Сподіваємось, що зможемо вас порадувати в майбутньому!
З найкращими побажаннями,
Менеджер Ірина