Преглед на приватноста

Оваа веб-страница користи колачиња за да ви обезбеди најдобро можно корисничко искуство. Информациите за колачињата се складираат во вашиот прелистувач и извршуваат функции како препознавање кога се враќате на нашата веб-страница и им помагаат на нашите програмери да разберат кои делови од веб-страницата ви се најинтересни и најкорисни.

Строго неопходни колачиња

Строго неопходните колачиња треба да бидат овозможени во секое време за да можеме да ги зачуваме вашите поставки за колачиња.

Microsoft разви скенер за откривање бекдори во големи јазични модели со отворени тежини

Microsoft во средата соопшти дека изгради лесен скенер кој, според нив, може да открие „бекдори“ во големи јазични модели со отворени тежини (LLMs) и да ја подобри севкупната доверба во системите за вештачка интелигенција (AI).

Тимот за AI безбедност на технолошкиот гигант изјави дека скенерот користи три забележливи сигнали кои можат сигурно да укажат на присуство на бекдори, притоа одржувајќи ниска стапка на лажни позитивни резултати.

„Овие потписи се засноваат на начинот на кој активирачките влезови мерливо влијаат врз внатрешното однесување на моделот, обезбедувајќи технички цврста и оперативно значајна основа за детекција“, изјавија Блејк Булвинкел и Џорџо Севери во извештај споделен со The Hacker News.

Големите јазични модели можат да бидат подложни на два вида манипулација: тежините на моделот, кои се однесуваат на параметрите што се учат во рамки на еден машински модел и ја поддржуваат логиката на одлучување и трансформацијата на влезните податоци во предвидени излези, како и самиот код.

Друг вид напад е труење на моделот (model poisoning), што се случува кога заканувач вградува скриено однесување директно во тежините на моделот за време на тренирањето, предизвикувајќи моделот да извршува несакани дејства кога ќе се детектираат одредени активирачи. Ваквите модели со бекдори се како „спијачки агенти“, бидејќи најчесто остануваат неактивни, а нивното злонамерно однесување станува видливо дури кога ќе се активира тригерот.

Ова го прави труењето на моделот еден вид прикриен напад, при кој моделот може да изгледа нормално во повеќето ситуации, но да реагира поинаку под тесно дефинирани услови на активирање. Студијата на Microsoft идентификува три практични сигнали што можат да укажат на затруен AI модел:

  • Кога се задава промпт што содржи активирачка фраза, затруените модели покажуваат карактеристичен „двоен триаголник“ образец на внимание, кој предизвикува моделот да се фокусира изолирано на активирачот, како и драматично да ја намали „случајноста“ на излезот
  • Моделите со бекдори имаат тенденција да ги „протекуваат“ сопствените податоци за труење, вклучувајќи ги и активирачите, преку меморирање наместо преку податоците за тренирање
  • Бекдор вметнат во моделот може да се активира и преку повеќе „нејасни“ (fuzzy) активирачи, односно делумни или приближни варијации

„Нашиот пристап се потпира на две клучни откритија: прво, „спијачките агенти“ имаат тенденција да ги меморираат податоците од труењето, што овозможува протекување на примери со бекдор преку техники за извлекување меморија“, соопшти Microsoft во придружен научен труд. „Второ, затруените LLM-модели покажуваат карактеристични обрасци во распределбата на нивните излези и во attention-главите кога во влезот се присутни активирачи на бекдор.“

Овие три индикатори, според Microsoft, можат да се користат за масовно скенирање на модели со цел да се идентификува присуството на вградени бекдори. Она што ја прави оваа методологија за скенирање на бекдори особено значајна е фактот дека не бара дополнително тренирање на моделите ниту претходно познавање на однесувањето на бекдорот, и функционира кај вообичаените GPT-стил модели.

„Скенерот што го развивме најпрво извлекува меморирана содржина од моделот, а потоа ја анализира за да ги изолира најзначајните поднизи“, додаде компанијата. „На крај, ги формализира горенаведените три потписи како функции на загуба, ги оценува сомнителните поднизи и враќа рангирана листа на можни кандидати за активирачи.“

Сепак, скенерот има и свои ограничувања. Тој не функционира кај сопственички (proprietary) модели бидејќи бара пристап до фајловите на моделот, најдобро работи кај бекдори базирани на активирачи што генерираат детерминистички излези и не може да се смета за универзално решение за откривање на сите видови бекдор-однесување.
„Оваа работа ја гледаме како значаен чекор кон практично и применливо откривање на бекдори, и признаваме дека одржливиот напредок зависи од заедничко учење и соработка низ целата заедница за AI безбедност“, изјавија истражувачите.

Овој развој доаѓа во момент кога Microsoft соопшти дека го проширува својот Secure Development Lifecycle (SDL) за да одговори на безбедносни прашања специфични за AI, кои се движат од инјекции преку промптови до труење на податоци, со цел да се овозможи безбеден развој и имплементација на AI низ целата организација.

„За разлика од традиционалните системи со предвидливи патеки, AI системите создаваат повеќе влезни точки за небезбедни влезови, вклучувајќи промптови, приклучоци, преземени податоци, ажурирања на моделот, состојби на меморија и надворешни API-ја“, изјави Јонатан Зунгер, корпоративен потпретседател и заменик главен директор за информатичка безбедност за вештачка интелигенција. „Овие влезни точки можат да носат злонамерна содржина или да активираат неочекувани однесувања.“

„AI ги разградува дискретните зони на доверба што ги претпоставува традиционалниот SDL. Контекстуалните граници се израмнуваат, што го отежнува спроведувањето на ограничување на намената и етикетите за чувствителност.“

Извори:

  • The Hacker News – Microsoft Develops Scanner to Detect Backdoors in Open-Weight Large Language Models The Hacker News