Лажна AI Agent вештина ги помина безбедносните проверки и наводно достигна до 26.000 агенти

Безбедносната компанија AIR создаде лажна вештина (skill) за AI агенти, ја објави преку популарен маркетплејс за вештини и ја промовираше преку реклама на Instagram. Според компанијата, вештината достигнала до приближно 26.000 агенти, вклучувајќи и некои што биле користени преку корпоративни сметки.

Секој безбедносен скенер за AI вештини што компанијата го тестирала ја означил како безбедна. Намерно вградениот „товар“ (payload) бил безопасен: единствено ја собирал е-поштата на корисникот и не правел ништо друго.

Целта на експериментот била да се покаже дека ниту еден од сигналите на кои луѓето се потпираат за да проценат дали една вештина е доверлива не успеал да ја открие измамата — ниту безбедносните скенери, ниту бројот на ѕвезди на GitHub, ниту репутацијата дека проектот е со отворен код.

Што претставува една AI вештина?

Вештината (skill) е пакет од инструкции што AI агентот ги вчитува во својот контекст и ги следи со авторитет сличен на корисничка команда (prompt).

Токму оваа доверба е суштината на проблемот и причината поради која постојат алатки за безбедносно скенирање на вештини.

Лажната вештина, наречена brand-landingpage, тврдела дека автоматски создава landing page страници користејќи ја алатката Google Stitch, а била насочена кон нетехнички корисници.

Како била изградена довербата?

За да изгледа легитимно, AIR се фокусирала на два клучни сигнали на доверба:

  1. Голем број GitHub ѕвезди.
  2. Позитивни резултати од безбедносните скенери.

За да го постигне првото, компанијата поднела pull request до репозиториум на маркетплејс за AI вештини кој имал околу 36.000 GitHub ѕвезди и содржел 156 различни вештини.

По неколку дена, pull request-от бил прифатен, со што новата вештина автоматски добила кредибилитет преку репутацијата на целиот репозиториум.

Потоа компанијата пуштила Instagram реклама насочена кон:

  • маркетинг професионалци,
  • продажни тимови,
  • дизајнери.

Многумина ја инсталирале вештината и почнале да ја користат.

Зошто безбедносните скенери не ја откриле?

Според AIR, скенерите што биле тестирани ги анализираат само датотеките што им се доставени, како што се:

  • SKILL.md,
  • придружните датотеки што се испорачуваат со пакетот.

Ова ги вклучувало скенерите на:

Меѓутоа, вештината немала сопствени инструкции за инсталација.

Наместо тоа, му кажувала на агентот да го инсталира таканаречениот „Stitch SDK“ следејќи документација на надворешен веб-домен: stitch-design.ai.

Овој домен бил под контрола на AIR, а не на Google. Вистинскиот Google Stitch сервис се наоѓа на:

  • stitch.withgoogle.com

Во почетната фаза, линкот навистина водел до оригиналната документација на Stitch. Поради тоа, скенерите виделе чист пакет кој упатува кон навидум легитимна страница за инсталација и го одобриле како безбеден.

Сепак, страницата што агентот подоцна би ја посетил и чии инструкции би ги следел се наоѓала надвор од опсегот на скенирањето, што покажува значајна слабост во сегашните механизми за проверка на безбедноста кај AI вештините.

Откако вештината била широко инсталирана, AIR ја променила содржината на страницата што се наоѓала зад наведениот линк.

Новата верзија на страницата му давала инструкции на AI агентот да преземе и изврши скрипта.

Во демонстрацијата, скриптата имала безопасна функција — само ја испраќала е-поштата на корисникот назад до AIR. На тој начин компанијата можела да пресмета колку агенти биле изложени на експериментот.

Сепак, во реално злонамерно сценарио, напаѓач би можел да го искористи истиот механизам за:

  • читање локални датотеки;
  • кражба или пренос на податоци;
  • пристап до внатрешни корпоративни системи;
  • извршување дополнителни команди преку агентот.

Можностите би биле ограничени само од дозволите и пристапот што самиот AI агент ги има во околината каде што работи.

Не е прв ваков случај

AIR не е првата организација што го демонстрира овој проблем.

Само три недели претходно, компанијата Trail of Bits успеала да ги заобиколи:

  • детекторот за злонамерни вештини на ClawHub;
  • безбедносниот скенер на Cisco;
  • сите три скенери интегрирани во платформата skills.sh.

Нивниот заклучок бил многу директен:

„Скенерот проверува статичен пакет датотеки, додека напаѓачот може постојано да го модифицира злонамерниот товар сè додека не ја помине проверката.“

Техника што веќе се користи во реални напади

Според истражувачите, ова не е само теоретски ризик.

Веќе со месеци се забележуваат реални кампањи кои ја користат истата техника:

  1. Во маркетплејсот се доставува целосно чиста и безопасна верзија на AI вештината.
  2. Сите безбедносни проверки успешно се поминуваат.
  3. Вистинскиот злонамерен код се хостира на надворешна веб-страница.
  4. AI агентот го презема тој код дури за време на инсталацијата или извршувањето.

Ова значи дека безбедносните системи кои анализираат само локални датотеки можат целосно да ја пропуштат вистинската закана, бидејќи опасната содржина никогаш не се наоѓа во пакетот што се скенира.

Главната поука

Овој експеримент покажува дека кај AI агентите довербата во:

  • GitHub ѕвезди,
  • репутација на проектот,
  • статус „open-source“,
  • позитивни резултати од автоматски скенери,

не е доволна гаранција за безбедност.

Доколку една AI вештина користи надворешни линкови, документација или скрипти што може подоцна да се изменат, напаѓачот може да го претвори првично безбедниот пакет во средство за компромитирање на системите долго откако ќе ја помине иницијалната безбедносна проверка.

Проблемот е структурен, а не технички

Проблемот лежи во самата архитектура на системот: безбедносното скенирање се извршува само еднаш, додека веб-страницата кон која вештината го насочува AI агентот може да биде изменета во секое време по завршувањето на проверката.

Дури и документацијата на Anthropic предупредува дека вештините кои преземаат содржина од надворешни URL адреси претставуваат ризик токму поради оваа причина — содржината може да се промени откако вештината ќе биде одобрена.

Дополнителни истражувања објавени оваа година покажале дека различните скенери често доаѓаат до различни заклучоци, бидејќи секој од нив ја анализира вештината изолирано, без увид во:

  • надворешните линкови што ги користи,
  • содржината што се презема од нив,
  • промените што се случуваат по процесот на ревизија.

Што треба да направат организациите?

Заклучокот за безбедносните тимови е ист како и во претходните истражувања, но сега е поткрепен со уште поконкретен пример:

Третирајте ги AI вештините како софтвер, а не како обичен текст.

Не е доволно да се провери само пакетот што се инсталира. Потребно е да се провери и сè она кон што вештината упатува.

Препорачаните мерки вклучуваат:

  • идентификување на сите AI вештини што веќе се користат во организацијата;
  • воспоставување централизирано место за одобрување и дистрибуција на нови вештини;
  • повторно скенирање и ревизија при секоја промена;
  • фиксирање (pinning) на конкретни верзии на вештините;
  • примена на принципот на најмал можен привилегиран пристап (least privilege);
  • претпоставка дека секоја надворешна инструкција што агентот ја презема се извршува со истите дозволи што ги има самиот агент.

Истражувачите нагласуваат дека резултатот од еднократна проверка не гарантира долгорочна безбедност ако вештината комуницира со линк чија содржина може да биде изменета од трета страна.

Бројките за обемот на експериментот доаѓаат исклучиво од компанијата AIR и треба да се разгледуваат со одредена доза на претпазливост.

AIR воедно најавува лансирање на сопствен управуван маркетплејс за AI вештини и на крајот од извештајот го промовира тој производ.

Поради тоа:

  • бројката од 26.000 агенти,
  • тврдењето дека меѓу нив имало корпоративни сметки,
  • како и проценката дека можеле да преземат целосна контрола врз сите тие агенти,

не се независно потврдени од трети страни.

Она што е потврдено

Иако обемот на експериментот не е независно верификуван, методологијата е добро документирана и потврдена од други истражувања.

Потврдено е дека:

  • наведените скенери анализираат само доставени пакети;
  • слепата точка поврзана со надворешни линкови навистина постои;
  • овој проблем бил демонстриран и од други истражувачи;
  • сигналите на доверба како GitHub ѕвезди и позитивни резултати од скенирање сè уште широко се користат како доказ за безбедност.

Клучната порака

Овој експеримент не открива нова ранливост. Наместо тоа, тој покажува како повеќе постоечки слабости можат да се комбинираат во успешен напад:

  • GitHub ѕвезди кои можат да се „позајмат“ преку популарен репозиториум;
  • безбедносно скенирање кое анализира само моментална снимка од пакетот;
  • надворешен линк чија содржина може да се промени веднаш по одобрувањето.

Без разлика дали реалниот број на засегнати агенти бил 26.000 или значително помал, експериментот укажува на безбедносна празнина што организациите и понатаму не ја имаат целосно затворено.

Извори:

  • The Hacker News – Fake AI Agent Skill Passed Security Scans and Reportedly Reached 26,000 Agents The Hacker News