Ранливоста ChatGPhish ги претвора веб-резимеата на ChatGPT во површина за фишинг напади

Објавено: 01.06.2026

Истражувачите за сајбер-безбедност открија детали за ранливост во OpenAI ChatGPT која ја користи имплицитната доверба на асистентот за вештачка интелигенција (AI) во Markdown линкови и слики за да активира prompt injection напади и да отвори врата за фишинг напади.

Техниката е наречена ChatGPhish од страна на Permiso Security.

„Рендерерот на одговори на chatgpt.com им верува на Markdown линковите и Markdown URL-адресите на сликите кои потекнуваат од страница на трета страна што асистентот штотуку ја сумирал. Тој автоматски ги презема тие слики и ги прикажува тие линкови како активни, кликабилни елементи во доверливиот кориснички интерфејс на асистентот“, изјави истражувачот за безбедност Анди Ахмети во извештај споделен со The Hacker News.

Во хипотетичко сценарио за напад, злонамерен актер може да додаде мал payload на која било веб-страница што жртвата подоцна ќе побара од ChatGPT да ја сумира, предизвикувајќи откривање на нејзината IP адреса, User-Agent и Referer податоци кога сликите хостирани од напаѓачот, вградени во страницата, автоматски ќе бидат преземени при прикажувањето на одговорот.

Покрај тоа, ова може да резултира со прикажување на злонамерни Markdown линкови како активни кликабилни елементи во одговорот на асистентот, прикажување лажни безбедносни предупредувања во системски стил и прикажување QR код од S3 bucket на напаѓачот, со што жртвата може да биде измамена да го скенира преку својот мобилен уред, ефикасно заобиколувајќи ги филтрите за URL адреси на десктоп системите и корпоративните безбедносни контроли.

Најновото откритие покажува како сумирањето може да се појави како површина за напади. Претходно во март, Permiso исто така откри како е-пошта контролирана од напаѓач и која содржи специјално подготвени инструкции, кога ќе биде сумирана од Microsoft Copilot, може да влијае врз неговиот излез преку cross-prompt injection (XPIA) или индиректен prompt injection.

Она што го прави ChatGPhish значајна техника за напад не е самиот prompt injection, туку начинот на кој инструкциите вградени во веб-страницата се следат и му се прикажуваат на корисникот како дел од резимето.

Со други зборови, доволно е обична веб-страница да биде сумирана со ChatGPT за да се прикажат фишинг линкови, лажирани предупредувања за кориснички сметки, оддалечени слики и QR кодови директно во доверлив AI интерфејс. Бидејќи организациите сè повеќе го користат ChatGPT за истражување и сумирање, оваа ранливост значи дека секоја злонамерна веб-страница што вработен ќе побара AI четботот да ја обработи може да содржи payload кој го претвора ChatGPT во површина за фишинг напади.

„Преминот од е-пошта кон прелистувачот значително ја проширува потенцијалната површина за напад. Корисникот повеќе не мора да отвора злонамерен прилог или да комуницира со сомнителна порака“, изјавија од Permiso.

„Самото сумирање на страница при нормална активност на прелистување може да внесе инструкции контролирани од напаѓач во контекстот на моделот и на крајот во прикажаниот одговор.“

Откритието доаѓа во време кога Adversa AI документираше две техники за напад со кодни имиња SymJack и TrustFall, насочени кон AI агенти за програмирање и agentic coding CLI алатки кои им овозможуваат на напаѓачите да постигнат извршување на код и целосна компромитација на системот.

SymJack е „единствен шаблон за напад кој му овозможува на злонамерен репозиториум да постигне далечинско извршување на код преку AI асистенти за програмирање“, изјави истражувачот за безбедност Рони Утевски.

„Агентот е измамен да копира датотека која изгледа безопасно, но тајно ја препишува сопствената конфигурација, а при следното рестартирање се извршува кодот на напаѓачот со целосни кориснички привилегии.“

Поконкретно, репозиториум поставен како замка го наведува агентот да копира навидум безопасна датотека, при што дестинацијата е симболичка врска (symlink) што покажува кон сопствената конфигурација на агентот, предизвикувајќи payload-от на напаѓачот да биде запишан во конфигурацијата.

При следното рестартирање, злонамерен Model Context Protocol (MCP) сервер се стартува и извршува произволен код со целосни кориснички привилегии.

TrustFall, од друга страна, претставува напад за далечинско извршување на код со еден клик преку злонамерен репозиториум кој може да испорача конфигурација што автоматски одобрува и стартува MCP сервер без експлицитна согласност од корисникот или потреба од повик на алатка од агентот.

Поинаку кажано, сè што му е потребно на напаѓачот за да го изврши нападот е да создаде репозиториум кој содржи злонамерен MCP сервер и конфигурациски поставки кои автоматски го одобруваат неговото извршување.

Кога програмер ќе го клонира или отвори репозиториумот во AI алатката за програмирање и ќе притисне „Enter“ на барањето за доверба во папката, AI алатката на крај го стартува кодот контролиран од напаѓачот со целосни системски привилегии на програмерот.

„Во моментот кога жртвата ќе го клонира репозиториумот, ќе го стартува Claude и ќе кликне на општото дијалог-прозорче ‘Yes, I trust this folder’, MCP серверот се стартува како природен процес на оперативниот систем со целосни кориснички привилегии“, наведува Adversa AI.

„Payload-от се извршува при стартување на серверот, пред какви било повици на алатки и без дополнителни барања.“

Овие откритија се совпаѓаат со откривањето на голем број методи за напад врз AI модели во последните месеци:

Користење на нов пристап за jailbreak наречен Involuntary In-Context Learning (IICL), кој „ја искористува тензијата помеѓу in-context learning (ICL) и усогласувањето со безбедносните политики“ за да ги заобиколи безбедносните ограничувања на GPT-5.4.
Безбедносните заштитни механизми на LLM моделите можат да бидат заобиколени доколку корисникот го измами моделот да води разговор во повеќе чекори. „Оценувањето преку повеќе чекори е важно од една причина: таму навистина дејствуваат напаѓачите“, соопшти Cisco. „Вистинските напаѓачи постојано ги менуваат пристапите. Тие ги преформулираат одбивањата, ги разделуваат задачите низ повеќе чекори, преземаат различни улоги и постепено ја ескалираат активноста. Тестирање со еден чекор не може да го забележи тоа.“
Ранливост во Anthropic Claude Code која користи промена на конфигурацијата на корисничко ниво во “~/.claude.json” за препишување на MCP крајните точки преку злонамерен npm пакет, со што напаѓачот се поставува помеѓу Claude Code и MCP сервер заштитен со OAuth, овозможувајќи му да ги пресретне токените што се користат за пристап до SaaS услуги.
Користење на механизам за далечинско ажурирање кој овозможува OpenClaw вештина да изгледа безопасно при инсталацијата, но подоцна му овозможува на напаѓачот да влијае врз агентот преку датотеките во работниот простор, така што за време на поставувањето на вештината го инструира корисникот да додаде специфични инструкции во датотеката HEARTBEAT.md.
Користење на скриен текст кој содржи содржина преземена од легитимен билтен или љубовен роман во фишинг пораки, со цел да се збуни AI системот за безбедност на е-пошта и пораката да биде означена како безопасна.
Ранливост во Chrome екстензијата на Claude наречена ClaudeBleed, која му овозможува на секоја екстензија, дури и без посебни дозволи, да ја преземе контролата и да го измами AI асистентот да извршува активни агентски дејства во нејзино име. „Проблемот произлегува од инструкција во кодот на екстензијата која дозволува секоја скрипта што работи во прелистувачот да комуницира со Claude LLM, но не проверува кој ја извршува скриптата“, изјави LayerX. „Како резултат на тоа, секоја екстензија може да повика content script (за кој не се потребни посебни дозволи) и да испраќа команди до Claude екстензијата.“
Истражување на Cisco покажало дека злонамерен текст прикажан како слика, напад познат како typographic prompt injection, може да се користи за заобиколување на безбедносните филтри кај vision language моделите (VLMs). „Кога моделот не успева да ја прочита оригиналната слика (мал фонт, силно заматување, ротација), ограничена пертурбација може да ја врати семантичката содржина во внатрешната репрезентација на моделот без да ја направи визуелно читлива за човек“, соопшти Cisco. „Тоа значи дека напаѓачот може да создаде слики кои изгледаат како шум или нечитлива дисторзија за OCR филтрите, а сепак содржат целосно читливи инструкции за целниот VLM.“
Збир на ранливости во Microsoft Semantic Kernel (CVE-2026-25592 и CVE-2026-26030) кои би можеле да претворат prompt injection напад во далечинско извршување на код на ниво на системот.
Користење на Neural Exec prompt injection нападот и Unicode right-to-left-override функцијата за заобиколување на влезните и излезните филтри на Apple, како и безбедносните механизми на локалниот модел на Apple Intelligence, со цел LLM моделот да генерира резултати контролирани од напаѓачот. Проблемот е отстранет во iOS 26.4 и macOS 26.4.
Индиректна prompt injection ранливост со кодно име WebPromptTrap која го погодува BrowserOS, агентски прелистувач со отворен код, и ги наведува корисниците да одобрат чекор за авторизација преку AI резиме генерирано од обработка на навидум легитимна статија со скриени инструкции. Проблемот е поправен во BrowserOS верзија 0.32.0.
Ревизија на екосистемот за агентски вештини што ги опфаќа ClawHub и skills.sh открила дека 13,4% од 3.984 вештини (вкупно 534) содржат најмалку еден критичен безбедносен проблем, вклучувајќи дистрибуција на малициозен софтвер, prompt injection напади и изложени тајни податоци. Околу 1.467 вештини имаат најмалку една безбедносна слабост, од хардкодирани API клучеви и небезбедно управување со акредитиви до изложување на содржина од трети страни.
Пар напади насочени кон NemoClaw, референтната платформа со отворен код на NVIDIA за заштита на OpenClaw AI агентите, со цел ексфилтрација на OpenClaw податоци преку стандардната конфигурација на sandbox околината, користејќи злонамерен GitHub репозиториум или npm пакет.

Како што напредните AI модели продолжуваат да се развиваат и созреваат, заканувачките актери сè повеќе експериментираат со технологијата за создавање малициозен софтвер со дополнителни способности за динамичко прилагодување на своето однесување со цел да избегне детекција, како и за префрлање на донесувањето одлуки на LLM моделите за да утврдат дали компромитираната околина е доволно вредна или безбедна за испорака на следните фази од нападот.

„На краток рок, ширењето на можностите на напредните AI модели носи ризик да им овозможи на напаѓачите да експлоатираат zero-day и N-day ранливости во размери какви што досега не биле видени“, соопшти Palo Alto Networks Unit 42. „Исто така, веројатно ќе им овозможи на напаѓачите да дејствуваат со поголем обем, поголема софистицираност и поголема брзина од кога било досега.“

Минатиот месец, компанијата за сајбер-безбедност исто така претстави proof-of-concept (PoC) агент наречен Zealot, кој ја користи моќта на LLM моделите за изведување целосни cloud напади со минимално човечко насочување, преку искористување на познати погрешни конфигурации и ранливости.

Ова, пак, произлегува од фактот дека cloud околините по дифолт се „AI-Attack-Ready“, бидејќи секоја активност има свој API еквивалент, располагаат со различни механизми за откривање како што се метаподатоци и сервиси за енумерација, содржат бројни погрешни конфигурации и се базираат на пристап преку акредитиви.

„Современите LLM модели можат да поврзат извидување, експлоатација, ескалација на привилегии и ексфилтрација на податоци со минимално човечко насочување“, истакнаа истражувачите на Unit 42, Јахав Фестингер и Чен Дојтшман. „Нападите не се нови, но автоматизацијата значи дека операции кои порано бараа специјализирана експертиза сега можат да бидат оркестрирани од AI агент кој следи веќе воспоставени шаблони.“

Извори:

The Hacker News – ChatGPhish Vulnerability Turns ChatGPT Web Summaries Into a Phishing Surface The Hacker News