Hogyan működnek a mesterséges intelligencia által generált deepfake-ek – és miért olyan nehéz megállítani őket?
A mesterséges intelligencia által generált deepfake-ek percek alatt képesek arcokat cserélni, hangokat hamisítani és valós személyekről nem beleegyező intim képeket készíteni. Íme, hogyan működik a technológia, miért marad a detektálás egy fegyverkezési verseny, és mit próbálnak tenni az új törvények.
Mi az a Deepfake?
A deepfake egy fénykép, videó vagy hangfelvétel, amelyet mesterséges intelligencia felhasználásával hamisítottak vagy manipuláltak, hogy valóságosnak tűnjön. A kifejezés a "deep learning" (mélytanulás) – a technológia mögött álló MI-technika – és a "fake" (hamis) szavak összevonásából származik. Míg a korai deepfake-ek jelentős számítási kapacitást és szakértelmet igényeltek, ma már bárki, aki rendelkezik okostelefonnal, másodpercek alatt meggyőző hamis képet generálhat ingyenesen elérhető alkalmazások segítségével.
A technológiának vannak legitim kreatív felhasználási területei – az elöregedett filmfelvételek helyreállításától a színészek különböző nyelveken történő szinkronizálásáig. Ugyanakkor a csalás, a politikai manipuláció és a szexuális visszaélés hatékony eszközévé is vált.
Hogyan készülnek a Deepfake-ek?
A legtöbb deepfake két alapvető MI-architektúrára támaszkodik: a Generatív Adverszariális Hálózatokra (GAN-ok) vagy a diffúziós modellekre.
A GAN két neurális hálózatot állít egymással szembe. A generátor hamis képeket hoz létre; a diszkriminátor megpróbálja kiszúrni azokat. Több ezer képzési ciklus során a generátor megtanul olyan képeket készíteni, amelyek elég meggyőzőek ahhoz, hogy megtévesszék az ellenfelét – és ezzel együtt az emberi szemeket is. A diffúziós modellek, amelyek olyan eszközöket működtetnek, mint a Stable Diffusion és a DALL-E, másképp működnek: megtanulják fokozatosan eltávolítani a véletlenszerű zajt egy képről, amíg egy valósághű kép nem jelenik meg, amelyet egy szöveges vagy képi prompt irányít.
Arc-csere deepfake-ek esetében a MI-t egy célzott személyről származó több száz vagy ezer képen képzik ki – gyakran a közösségi médiából összegyűjtve. Ezután feltérképezi az arc geometriáját egy másik testre, vagy lecseréli egy másik személy arcát a meglévő felvételeken. Az úgynevezett "vetkőztető alkalmazások" egy valós személy felöltözött fényképét veszik alapul, és a tudta és beleegyezése nélkül meztelen képet generálnak róla.
A probléma mértéke
A számok megdöbbentőek. A biztonsági kutatók által összeállított adatok szerint a MI által generált gyermekszexuális zaklatási anyagokról szóló bejelentések 1325%-kal nőttek 2023 és 2024 között, és csak 2024-ben több mint 67 000 bejelentést tettek a National Center for Missing and Exploited Children (Eltűnt és Kiszolgáltatott Gyermekek Nemzeti Központja) felé – szemben az előző évi mindössze 4700-zal. A Center for Countering Digital Hate (Digitális Gyűlölet Elleni Központ) tanulmánya megállapította, hogy egy MI-kép generátor körülbelül hárommillió szexualizált képet készített kevesebb mint két hét alatt, köztük több tízezer kiskorút ábrázolót.
A károk messze túlmutatnak a szexuális visszaélésen. A deepfake pénzügyi csalások 2024-ben tízszeresére nőttek, és egyetlen negyedévben több mint 200 millió dollárba kerültek az észak-amerikai vállalkozásoknak. A csalók akár három másodpercnyi hangfelvételből is képesek klónozni egy személy hangját, és felhasználhatják azt vezetők, szülők vagy kormánytisztviselők megszemélyesítésére. Egy 2025-ös tanulmány megállapította, hogy az emberek mindössze 0,1%-a tudta helyesen azonosítani az összes hamis és valós médiát, amelyet egy tesztben mutattak nekik.
Miért olyan nehéz a felderítés?
A felderítő eszközök – amelyek MI-t használnak a manipuláció árulkodó jeleinek, például a természetellenes pislogásnak, a világítási eltéréseknek vagy a bőrszerkezet rendellenességeinek keresésére – állandó fegyverkezési versenyben állnak a deepfake-készítőkkel. Ahogy a detektorok javulnak, a generátorokat átképzik, hogy legyőzzék őket. Az Alan Turing Institute kutatói arra figyelmeztetnek, hogy a felderítési pontosság meredeken csökken, ha a deepfake-et más módszerrel készítik, mint amellyel a detektort betanították.
Egy ígéretes megközelítés a tartalom eredetének igazolása: kriptográfiai metaadatok beágyazása a képekbe a létrehozás pillanatában, így a nézők ellenőrizhetik, hogy a fényképet fényképezőgép készítette-e, vagy MI generálta. Az Coalition for Content Provenance and Authenticity (C2PA) (Tartalom Eredetének és Hitelességének Koalíciója), amelyet az Adobe, a Microsoft és a nagy fényképezőgép-gyártók támogatnak, egy globális szabványt épít ki ehhez. A Google SynthID láthatatlanul vízjelezi a MI által generált képeket. A vízjeleket azonban el lehet távolítani, a metaadatokat törölni lehet, és a képernyőképek teljesen megkerülik a rendszert.
Mit mond a törvény?
A jogszabályok lassan felzárkóznak. Az Egyesült Államok TAKE IT DOWN Act (VEDD LE TÖRVÉNYE), amelyet 2025 májusában írtak alá, bűncselekménnyé nyilvánította az intim képek, köztük a MI által generált hamisítványok nem beleegyező közzétételét, és előírja a platformok számára, hogy 48 órán belül távolítsák el a megjelölt tartalmat. A Szenátus által 2026 januárjában elfogadott DEFIANCE Act (ELLENÁLLÁS TÖRVÉNYE) szövetségi polgári jogorvoslati lehetőséget teremt, amely lehetővé teszi az áldozatok számára, hogy akár 150 000 dollár kártérítésért bepereljék a nem beleegyező intim deepfake-ek készítőit és terjesztőit – vagy 250 000 dollárt, ha a visszaélés zaklatással vagy bántalmazással függ össze.
A végrehajtás továbbra is hiányos. Sok deepfake alkalmazás több joghatóságon átívelően működik, a platformok nehezen tartanak lépést a feltöltések mennyiségével, és az anonim alkotókat nehéz nyomon követni. Civil szervezetek azzal érvelnek, hogy az eltávolítási határidők még mindig túl lassúak, és hogy a technológiai vállalatoknak többet kell tenniük a generálás megelőzése érdekében – nem csak a kár bekövetkezése után reagálni.
Mit tehetsz?
A tudatosság az első védelmi vonal. A szakértők azt javasolják, hogy korlátozzák a nyilvánosan elérhető fényképeket a közösségi médiában, használjanak fordított képkeresést annak ellenőrzésére, hogy fényképeiket nem használták-e vissza, és jelentsék a nem beleegyező intim képeket a platformoknak és a bűnüldöző szerveknek. Az olyan szervezetek, mint a StopNCII segítenek az áldozatoknak digitális hash-eket létrehozni a képekről, hogy a platformok proaktívan blokkolhassák azok terjedését, mielőtt azok vírusossá válnának.
A mélyebb kihívás strukturális: ahogy a MI-kép generálás olcsóbbá és hozzáférhetőbbé válik, a valós és a hamis közötti szakadék tovább fog szűkülni. Ennek megoldásához nemcsak jobb technológiára, hanem erősebb jogi keretekre, a platformok elszámoltathatóságára és a szintetikus média online kezelésének kulturális eltolódására is szükség lesz.