Az adatok lázadása, avagy AI és privacy – II. rész

„Hogyan lehet jogszerűen tanítani mesterséges intelligenciát személyes adatokkal, ha az érintettek nem is tudnak róla? A cikksorozat második része az adatkezelési jogalapok gyakorlati alkalmazhatóságát vizsgálja, különös tekintettel a hozzájárulás, a szerződéses jogalap és a jogos érdek közötti választás nehézségeire.”

A helyes adatkezelési jogalappal kapcsolatos dilemmák

Utalva a cikksorozat első részében leírtakra és feltételezve, hogy az adatkezelési cél meghatározása az adatvédelmi jogi követelményekkel összhangban megtörténik, az adatkezelés kapcsán a következő nehézséget a helyes jogalap megtalálása jelenti.

E körben fontos rögzíteni, hogy az esetek többségében az érintettek és az adatkezelő közötti interakció tárgya elsődlegesen nem az, hogy az érintettek adatait valamely mesterséges intelligencia megoldás tanítására kívánja használni az adatkezelő, hanem valamely szolgáltatás igénybevétele, amelynek során az érintettre vonatkozó személyes adatok jutnak az adatkezelő birtokába. Ilyen helyzetet eredményezhet egy közösségi média, vagy videomegosztó platform használata, telefonos beszélgetés egy ügyintézővel, webshop-ban lebonyolított vásárlások, vagy egy chatbot részére adott prompt-ok.

A szerző meglátása szerint e körben a GDPR szerinti „hozzájárulás”, „érintettel kötött szerződés teljesítése” és „adatkezelő vagy harmadik személy jogos érdeke”[1] jogalapokat szükséges vizsgálni. Ennek oka, hogy az esetek döntő többségében az MI rendszerek személyes adatokkal való tanítására kifejezett jogi kötelezettség nem áll fenn, az nem szükséges az érintett valamely létfontosságú érdekének védelméhez,[2] továbbá az nem valamely, az adatkezelőre ruházott közhatalmi jogosítvány vagy gyakorlásának keretében végzett feladat végrehajtásához szükséges,[3] az ezekhez kapcsolódó jogalapok tehát nem jönnek szóba.

a) Hozzájárulás

Az érintett hozzájárulása[4] kézenfekvő megoldásnak tűnik, hiszen az – amennyiben érvényes – magas szintű jogi megfelelést biztosíthat, amelynek köszönhetően az érintett információs önrendelkezési joga megfelelően kifejezésre juttatható. A hozzájárulás megadására szolgáló mechanizmus kialakítása és az utólagos igazolhatóság sem tűnik elsőre kivitelezhetetlennek, e körben elegendő a weboldalakon használt sütik esetében gyakran látott popup felületekre gondolni.

Azonban, ha figyelembe vesszük, hogy az MI modellek és rendszerek tanítása sok esetben ún. web scraping[5] technológiával történik, a hozzájárulás érvényes módon történő beszerzése már komoly akadályokba ütközik. Az egyszerűbb esetben a web scraping olyan módon történik, hogy egy adott szolgáltató a saját maga által fenntartott felületekről – pl. közösségi média platformok, keresőfelületek, egyes online szolgáltatások – gyűjti be a személyes adatokat is tartalmazó adattömeget. Ez esetben nem tűnik teljesen lehetetlennek egy olyan eljárásrend kialakítása, amelyben az érintett megfelelő tájékoztatáson alapuló hozzájárulást tud adni utólag is igazolható módon. A bonyolultabb esetben a web scraping hatóköre nem pusztán néhány, egyazon szolgáltató által üzemeltetett felület, hanem ennél sokkal tágabb, így pl. meghatározott paramétereknek megfelelő webhelyek sokasága. A hozzájárulás kivitelezhetősége ez esetben azért vet fel aggályokat, mert a web scraping-et végrehajtó szervezet közvetlen kapcsolatba egyáltalán nem kerül az érintettel, következésképpen az érintett tájékoztatására és hozzájárulása kérésére sincs lehetősége, továbbá az sem világos, hogy az érintett miként kaphatna tájékoztatást a web scraping céljáról (nem beszélve érintetti jogai későbbi gyakorolhatóságáról). Ezen jogalap alkalmazhatóságának – legalábbis az utóbbi esetben – tehát inkább praktikus, mint jogi akadályai vannak.

Emellett van egy gazdasági oka is. A mesterséges intelligencia tanítása szempontjából ugyanis kulcskérdés, hogy minél több adat álljon rendelkezésre. Amennyiben bevezetünk egy opcionális „előszűrőt”, amely a hozzájárulás, úgy szükségszerűen jelentős mértékben lecsökken a jogszerűen tanításra használható személyes adatok száma. E körben meg kell említeni azt a gyakran hallott érvet, amely szerint a világviszonylatban restriktív európai uniós adatvédelmi és MI szabályozás végső soron elnehezíti az innovációt, amely jelen esetben is felvethető lenne: miért tevékenykedjen egy mesterséges intelligenciát fejlesztő vállalat az EU területén, ha az EU-n kívül sokszorosan több személyes adattal taníthatja saját megoldását, mint az EU-n belül? A hatékonysági aggályok nyilvánvalóak, figyelembe véve azt is, hogy az elkészült mesterséges intelligencia megoldás minősége is csorbulhat, ha kevesebb adat állt rendelkezésre a tanításához.[6]

b) Az érintettel kötött szerződés teljesítése

Mint említettük, az esetek túlnyomó többségében a személyes adatok mesterséges intelligencia tanítására való használata egyfajta „járulékos” adatkezelési cél, de nem a központi eleme az adatkezelő és az érintett közötti kapcsolatnak. Ebből következően, még ha létezik is szerződéses jogviszony az érintett és az adatkezelő között – pl. egy ÁSZF elfogadása eredményeképp –, amely valamely szolgáltatás igénybevételére irányul, a tanítási célú személyes adat-felhasználás valószínűleg nem elengedhetetlen annak teljesítéséhez, mert a szolgáltatás tárgyát nem az képezi. Persze az élelmes adatkezelő érvelhetne azzal, hogy amennyiben a tanítási célú adatkezelést – mintegy „take it or leave it”[7] alapon – a vonatkozó ÁSZF részévé teszi, akkor máris hivatkozhatna az „érintettel kötött szerződés teljesítése” jogalapra és nem kellene külön hozzájárulást beszereznie.

Az effajta érvelés megítéléséhez a szerző álláspontja szerint akad megfelelő jogértelmezési analógia. Ez a megközelítés ugyanis korábban már felmerült adatvédelmi jogi értelemben az egyik legnagyobb közösségi médiaplatform üzemeltetője részéről, amely – az Európai Unió Bírósága Meta v. Bundeskartellamt ügyben megfogalmazott értelmezésében – olyan modellt alkalmazott, amelyben az ÁSZF-je elfogadásával az érintett automatikusan hozzájárulását adta tevékenysége harmadik felek által üzemeltetett felületeken és a közösségi média platform üzemeltetője által üzemeltetett felületeken történő nyomon követeséhez és az eredmények összekapcsolásához. A Bíróság szerint[8] az „érintettel kötött szerződés teljesítése” azonban úgy értelmezendő, hogy az az érintettekkel kötött szerződésbeli főszolgáltatás nyújtásához kell, hogy elengedhetetlen legyen, ezért kétséges, hogy ebbe a személyes adatok marketing célú elemzése beletartozhat-e (a Bíróság ennek eldöntését a nemzeti bíróságokra hagyta). A Bíróság ezen döntésére több alkalommal hivatkozik, az Európai Adatvédelmi Testület is vonatkozó állásfoglalásában,[9] amely tovább cizellálja a nagy online platformok szolgáltatói által alkalmazható jogalapok kérdését.

Meta v. Bundeskartellamt ítélet logikája felfedezhető az Európai Unió Digitális Piacokról szóló Rendeletében is, amely kifejezetten rögzíti, hogy az ún. kapuőr szolgáltató a releváns alapvető platformszolgáltatásokból származó személyes adatokat nem használhatja fel általa külön nyújtott egyéb szolgáltatások – például egyéb alapvető platformszolgáltatások – céljára, és fordítva, kivéve, ha a végfelhasználó számára konkrét választási lehetőséget kínáltak fel és a végfelhasználó hozzájárulását adta.[10]

A fenti okfejtést erősíti az Európai Parlament felkérésére készült, kifejezetten a GDPR mesterséges intelligenciára gyakorolt hatását vizsgáló tanulmány is[11] amely arra az álláspontra helyezkedik, hogy az „érintettel kötött szerződés teljesítése” jogalap nem terjedhet ki egyrészt az adatok további, üzleti analitika célú felhasználására, másrészt arra sem, hogy azokat később valamely előrejelző-döntéshozatali modell részévé tegyék, még akkor sem, ha ez alapján akár egy új szerződésre vonatkozó ajánlatot is kaphat az érintett (pl. egy egészségbiztosítási tárgyú szerződés kapcsán az érintett személyes adatainak MI-alapú vizsgálata alapján a rendszer arra jut, hogy egy új, személyre szabott szerződési ajánlat tétele indokolt az érintettnek).

Bár a jelen cikk írásakor a mesterséges intelligencia tanítására vonatkozóan nem áll rendelkezésre bírósági gyakorlat, vagy akár hatósági iránymutatás, a szerző a fenti jogfejlődési irányok alapján nehezen tartja elképzelhetőnek, hogy az MI tanításának céljából való adatkezelés mintegy automatikus, szerződéses jogalapra helyezése valamely ÁSZF elfogadása útján kiállná az adatvédelmi jogi megfelelőség próbáját (a további, fogyasztóvédelmi, versenyjogi[12] aggályokról nem is beszélve). Ez nem csak a rendelkezésre álló, pl. fent említett források logikájának, de a GDPR szellemiségének is ellentmondana, hiszen érdemben csorbítaná az érintett információs önrendelkezési jogát.

c) Az adatkezelő vagy harmadik személy jogos érdeke

Ha feltételezzük, hogy az adatkezelő nem kíván hozzájárulás jogalapra helyezkedni, az „érintettel kötött szerződés teljesítése” jogalap pedig az előző pontban kifejtettek miatt erősen aggályos, a gyakorlatban nem marad más, mint a jogos érdek jogalap mérlegelése.

2024. május 7-én az X saját fejlesztésű MI alapú chatbot-ja, a Grok kapcsán új funkciót vezetett be: egyfajta opt-out bevezetésével lehetővé tette a felhasználók számára, hogy megakadályozzák posztjaik és egyéb interakcióik felhasználását a Grok tanítására. Amennyiben a felhasználó „privát” módba állítja a profilját, úgy a továbbiakban kizárólag a publikus posztjai kerülnek felhasználásra tanítási célból. Az X kifejezetten rögzíti, hogy ehhez a tanításhoz kapcsolódó adatkezelési jogalapnak a jogos érdek jogalapot használja, amelyre vonatkozóan egy összegzést is közzétett a honlapján.[13] Anélkül, hogy a tárgybeli adatkezelésről bármilyen értékítéletet meg kívánnánk fogalmazni, úgy tűnik, mintha a jogos érdeket mind az X, mind az X szolgáltatásait igénybe vevő harmadik fél felhasználók kapcsán is megjelölné, amennyiben leírja, hogy a tanítás hiányában az embereknek nem lenne lehetősége nagymennyiségű információhoz, véleményekhez, nézőpontokhoz és pontos összegzésekhez hozzáférni, továbbá az X számára nehezebbé válna a releváns, pontos és megfelelő válaszok adása.[14]

Az X fenti gyakorlata kapcsán az ír adatvédelmi hatóság az ír legfelsőbb bírósághoz fordult annak érdekében, hogy a bíróság az előző bekezdés szerinti adatkezelési gyakorlat felfüggesztésére kötelezze az X-et.[15] Hivatkozott arra, hogy álláspontja szerint a tárgybeli gyakorlat az érintettek alapvető jogainak és szabadságainak sérelmével járhat. Az X ugyanakkor – még mielőtt a legfelsőbb bíróság döntést hozhatott volna – beleegyezett a gyakorlat felfüggesztésébe, így a bíróság az eljárást megszüntette.[16] [17]

Ezzel együtt, a jogértelmezés az MI modellek tanításának megfelelő jogalapja kapcsán egyelőre gyerekcipőben jár és a meglévő értelmezések is meglehetősen széttartóak. Így pl. a francia adatvédelmi hatóság[18] az online tartalmak web scraping technológia útján történő tanítási célú felhasználása esetében úgy tűnik, megfelelőnek tartja a jogos érdek jogalapot,[19] amennyiben az az adatminimalizálás elvével összhangban történik. E körben kiemeli, hogy szükséges egyrészt előzetesen és világosan meghatározni az adatkört, amelyre a web scraping kiterjed, másrészt, amennyiben mégis irreleváns adatok kerülnének begyűjtésre, úgy intézkedni kell ezek haladéktalan törlése vagy anonimizációja iránt, harmadrészt, eleve olyan szűrőket szükséges alkalmazni, amelyek a személyes adatok különleges kategóriáinak gyűjtését kizárják.[20] Ezen kritériumok betartásának szükségességére egyébként maga az MI Rendelet is utal az adatgazdálkodásról szóló, fentebb már idézett preambulum-bekezdésében, valamint a nagy kockázatú MI rendszerek fejlesztésére vonatkozó kötelezettségek körében.[21] A Commission nationale de l’informatique et des libertés (továbbiakban CNIL) a jogos érdek tárgyalása körében példálózó felsorolást is ad arról, hogy az MI fejlesztése kapcsán mi minősülhet jogos érdeknek és ennek keretében említi az „új rendszerek és funkciók fejlesztése egy adott szolgáltatás felhasználói számára”, a „chatbot szolgáltatás a felhasználók támogatása céljából” és a „termék vagy szolgáltatás fejlesztése teljesítménye javítása céljából”[22] eseteket. Kulcsfontosságú az a megállapítása is, amely szerint önmagában az a tény, hogy egy MI rendszer fejlesztése kereskedelmi céllal történik, nem zárja ki a jogos érdek jogalap alkalmazhatóságát.

Hasonló megállapításra jut az Európai Adatvédelmi Testület „ChatGPT Taskforce” elnevezésű csoportja is, amely kifejezetten a tárgybeli chatbot adatvédelmi jogi szempontú vizsgálatára jött létre. Jelentésében kiemeli, hogy az MI modellek web scraping technológiával történő tanítása alapvető kockázatokat rejt az érintettek jogaira és szabadságaira nézve, hiszen ez több online forrásból teszi lehetővé az adatgyűjtést és a gyűjtött adatok között személyes, akár különleges adatok is lehetnek.[23] Azt is kifejti, hogy az OpenAI – a ChatGPT fejlesztője – jogos érdek jogalapra hivatkozva végzi a modell tanítását, majd erre mintegy reflektálva emlékeztet, hogy a jogos érdek vizsgálatakor mindenekelőtt az érdek jogosságát, ezt követően a szükségességet, majd az érintettek jogainak és az adatkezelő érdekének mérlegelését szükséges elvégezni.[24]

Ezzel ellentétben pl. a holland adatvédelmi felügyeleti hatóság álláspontja szerint a jogos érdek mint adatkezelési jogalap szinte soha nem alkalmazható az MI web scraping alapú tanítására.[25] Rögzíti, hogy a kizárólag üzleti célú web scraping-et nem tekinti olyan érdeknek, amely adatvédelmi jogalap értelemben jogosnak minősülne.

A jogos érdek mint jogalap alkalmazhatósága az MI tanítása kapcsán tehát jelen állapot szerint kiforratlan, ezen vélhetően az Európai Adatvédelmi Bizottság állásfoglalása fog valamelyest változtatni. Mindazonáltal, még egy ilyen állásfoglalás birtokában is – amennyiben az egyáltalán megengedhetőnek találja a jogos érdek jogalapot – nagy felelősség lesz az adatkezelőkön, hogy az eseti körülményeket mérlegelve teljes körű érdekmérlegelési tesztet készítsenek az általuk azonosított jogos érdek alátámasztására.

A személyes adatoknak a gyűjtésük eredeti céljától eltérő egyéb célból történő kezelése

Amennyiben az MI rendelet adatgazdálkodásra és adatkormányzásra vonatkozó tartalmát vizsgáljuk, láthatjuk, hogy ez a tartalom kógens módon csak a nagy kockázatú MI rendszerekre alkalmazandó, mindazonáltal az egyéb kockázati kategóriák esetén is jó gyakorlatnak tekinthető. Az MI Rendelet a tanító, validálási és teszt-adatkészletek kapcsán kifejezetten elvárásként fogalmazza meg, hogy az ezekre vonatkozó megfelelő adatkormányzási és adatgazdálkodási gyakorlatoknak ki kell terjedniük „az adatgyűjtési eljárásokra és az adatok eredetére, valamint személyes adatok esetében az adatgyűjtés eredeti céljára.”[26]

Az MI Rendelet fenti előírását is figyelembe véve vizsgálni szükséges egy, a joggyakorlatban egyébként meglehetősen ritkán előforduló esetet, amelyet a GDPR „eredeti céltól eltérő célú adatkezelésként” szabályoz.[27] A szabályozás lényege, hogy amennyiben az adatgyűjtés eredeti céljától eltérő célból történő adatkezelés nem az érintett hozzájárulásán, vagy tagállami jogon alapul, akkor az adatkezelőnek mérlegelnie szükséges, hogy az eltérő cél összeegyeztethető-e az eredeti céllal, amelyből az adatokat gyűjtötte, ezen mérlegelés során figyelembe véve többek között, az eredeti és eltérő cél közötti kapcsolatot, az adatok gyűjtésének körülményeit, a személyes adatok jellegét, illetve az érintettekre gyakorolt lehetséges hatásokat. További iránymutatást ad a GDPR preambuluma,[28] amelyben azt olvashatjuk, hogy az eredeti céltól eltérő kezelés csak akkor megengedett, ha az összeegyeztethető az adatkezelés eredeti céljaival, amelyekre a személyes adatokat eredetileg gyűjtötték és ez esetben a további adatkezeléshez külön jogalapra nincs szükség. Ezt követően felsorol néhány olyan további adatkezelés-típust, amelyek ab ovo jogszerűnek tekinthetők, ilyen pl. a statisztikai célú adatkezelés.

A szerző álláspontja szerint azonban az MI modellek tanítása messze túlmutat a statisztikai célon (bizonyos értelmezés mellett pedig teljesen eltér attól), tehát ezen, preambulumban nevesített konkrétumra valószínűleg nem lehetne jogszerűen hivatkozni és azzal érvelni, hogy a tanítási cél valójában egy eredetitől eltérő célú további adatkezelés. Annál is inkább, mert erre legfeljebb azok a szolgáltatók próbálhatnának meg hivatkozni – jóllehet valószínűleg ők is sikertelenül – amelyek közvetlenül szerezték meg az érintett adatait valamely adatkezelésük kapcsán (pl. egy közösségi média platform használata érdekében), tehát egyáltalán beszélhetünk „eredeti célról”. Azon esetekben, amikor a tanítási cél kapcsán az adatkezelő semmiféle előzetes kapcsolatban nem áll az érintettel és eleve nem is maga gyűjtötte közvetlenül az érintett adatait, a további célból folytatott adatkezelés szabályai – eredeti cél hiányában – még ennyire sem látszanak alkalmazhatónak. Ugyanakkor még ha azonosítható is eredeti cél, erősen kérdéses, hogy az előbb hivatkozott körülmények mérlegelése miként vezethetne olyan eredményre, amely alapján az adatkezelő jogszerűen használhatja fel az eredeti célból nála meglévő személyes adatokat tanítási célra. Ez ugyanis valószínűleg kiüresítené mind az információs önrendelkezési jog, mind az érintetti joggyakorlás GDPR-ban lefektetett tartalmát.

A szerző szerint tehát a GDPR 6. cikk (4) bekezdése az MI tanítási célú adatkezelésekre az esetek többségében várhatóan nem lesz érvényesen hivatkozható szabály, más szavakkal, az adatkezelő nem fogja tudni „megspórolni”, hogy tanítási célú adatkezeléséhez egy önálló, érvényes jogalapot rendeljen, ezzel pedig visszaérkeztünk a megfelelő jogalap korábban kifejtett témaköréhez.

A különleges adatok kezelése és az újraazonosítás lehetősége

Az MI Rendelet a nagy kockázatú MI rendszerek fejlesztésével összefüggésben, egy meglehetősen szűk körben teszi lehetővé különleges adatok kezelését, ez pedig az az eset, amikor a rendszer valamely torzításának – pl. diszkriminatív tendenciáinak – észlelése és korrekciója a cél és még e körben is számos garanciális jellegű szabályt ír elő az adatkezelő számára.[29] Természetesen mindez nem erodálja vagy változtatja meg a különleges adatok kezelésére a GDPR alapján vonatkozó szabályokat.

Az mára alapvetésnek tekinthető az adatvédelmi jogi gyakorlatban, hogy amennyiben a GDPR szerinti különleges adatok kategóriáit kívánja kezelni, úgy az adatkezelőnek az érvényes jogalap mellett valamely, a GDPR 9. cikke szerinti kivételszabályra is érvényesen hivatkoznia kell, tekintve, hogy a különleges adatok kezelése főszabályként tilos.[30]

Korábban említettük, hogy a CNIL szerint az MI tanítása során alkalmazott mechanizmust – összhangban a GDPR szerinti beépített és alapértelmezett adatvédelem elvével[31] eleve olyan módon szükséges kialakítani, hogy a bemeneti oldalon alkalmazott szűrők ne tegyék lehetővé a különleges adatok gyűjtését. Ugyanerre a következtetésre jut az Európai Adatvédelmi Testület ChatGPT TaskForce-a is.[32] Végső soron tehát mindkét állásfoglalásból az olvasható ki, hogy főszabály szerint a különleges adatok tanítási célú kezelésére nincs lehetőség. Ennek okát a ChatGPT TaskForce abban látja, hogy nincsen olyan GDPR 9. cikk szerinti kivételszabály, amely érvényesen lenne hivatkozható a tárgybeli esetben. Az egyetlen, amely megfontolásra érdemes, a GDPR 9. cikk (2) bekezdés e) pontja szerinti „az adatkezelés olyan személyes adatokra vonatkozik, amelyeket az érintett kifejezetten nyilvánosságra hozott.” A TaskForce által készített riport azonban leszögezi,[33] hogy ez a kivétel csak elméleti lehetőségként merül fel, hiszen önmagában az, hogy valakiről egy különleges kategóriájú személyes adat publikusan elérhető, még nem szükségszerűen jelenti azt, hogy az érintett részéről kifejezetten fennáll a nyilvánosságra hozatal szándéka.[34] Az erről való meggyőződés eseti vizsgálatot igényelne, amely viszont az MI rendszerek tanításának jellegzetességei (ld. web scraping és más adatbányászati módszerek) miatt nyilvánvalóan lehetetlen.

A különleges adatok kezelése kapcsán jelen tudásunk szerint a GDPR hatályos rendelkezései tehát főszabályként nem tartalmaznak olyan kivételt, amely megfelelő lenne ezen művelet-típushoz, amely pedig esetleg annak lenne tekinthető (hozzájárulás), az nem állja ki a gyakorlati megvalósítás próbáját. Ez alól jelenthet kivételt az MI Rendelet fent említett szűk körű szabálya, ugyanakkor ennek esetében is kérdéses, hogy a GDPR 9. cikkének mely pontja lenne hivatkozható. E körben elgondolkodtató lehet a g) pont – „az adatkezelés jelentős közérdek miatt szükséges, uniós jog vagy tagállami jog alapján, amely arányos az elérni kívánt céllal, tiszteletben tartja a személyes adatok védelméhez való jog lényeges tartalmát, és az érintett alapvető jogainak és érdekeinek biztosítására megfelelő és konkrét intézkedéseket ír elő” – de ennek alkalmazásához előfeltételezésként kellene elfogadnunk, hogy az MI rendszerek tanítása önmagában álló jelentős közérdeket testesít meg, amely a szerző szerint egy meglehetősen széles és valószínűleg parttalan jogértelmezés lenne, továbbá az adott MI rendszer céljának és funkcionalitásának mélyreható elemzése nélkül egyáltalán nem is lenne vizsgálható ezen pont alkalmazhatósága. Egy fokkal talán nagyobb eséllyel kerülhetne sor az f) pont alkalmazására – „az adatkezelés jogi igények előterjesztéséhez, érvényesítéséhez, illetve védelméhez szükséges, vagy amikor a bíróságok igazságszolgáltatási feladatkörükben járnak el” – a „jogi igények védelméhez” fordulat miatt (gondoljunk itt pl. egy hibásan működő MI rendszer általi faji vagy egyéb alapú diszkriminatív tendenciákra), de a jogértelmezés kimunkálása egyelőre ez ügyben is várat magára.

Az, hogy különleges adatok nem, vagy szigorú korlátok között kezelhetők MI rendszerek tanítására, az érintettek szemszögéből valószínűleg üdvözlendő hír. A különleges adatok fokozott védelmének oka ugyanis eleve az, hogy ezek a személyiség szenzitívebb rétegeire vonatkoznak, következésképpen a velük való visszaélés is komolyabb jogsértést, az érintett alapvető életviszonyainak negatív megváltozását eredményezheti. Ha abból indulunk ki, hogy az MI tanításának egyik alapeleme, hogy az algoritmus az input információkban mintázatokat keres, majd azok alapján jut bizonyos következtetésekre, nem zárható ki, hogy egyes, különleges, vagy éppen személyes adatoknak egyáltalán nem minősülő töredék információkat is képes olyan módon újra-kombinálni, amely lehetővé teszi valamely magánszemély azonosítását.[35] Példa lehet erre valamely anonimizált(nak gondolt) egészségügyi adatbázis tartalma, amelyet azonban az MI rendelkezésére bocsátanak, ugyanakkor az MI újraperszonalizálja azt, ilyen módon „tudomást szerezve” az érintettek teljes kórtörténetéről, mi több, adott esetben pl. ajánlásokat vagy döntéseket is megfogalmaz.[36]

Az effajta újraperszonalizálás nyilvánvaló és súlyos kockázatot jelenthet az érintettek magánszférájára. és azon túl, hogy az adatvédelemben az anonimizálás kapcsán érvényesülő teljes jelenlegi paradigmát megváltoztathatja, azt is jól mutatja, hogy az MI terén ott is jelentkezhetnek adatvédelmi jogi kockázatok – és potenciális személyiségi jogsértések – ahol hagyományos adatvédelmi jogász gondolkodással azt sokan nem is sejttették.

A különleges adatok MI-vel összefüggő kezelése terén tehát várhatóan fokozott jogértelmezési feladat fog mind az Európai Adatvédelmi Testületre, mind a nemzeti felügyeleti hatóságokra hárulni.

Kitekintés  a federált tanulás mint lehetséges megoldás az MI tanításával kapcsolatos adatvédelmi aggályokra

A cikksorozat eddigi tartalmából talán látható, hogy az adatvédelem jelentette kihívások a mesterséges intelligencia tanítása kapcsán meglehetősen komplexek és számosak. Ezek a kihívások jelentős részben kezelhetővé válnának, ha a tanításhoz nem, vagy az eddigieknél lényegesen kisebb mértékben lenne szükség személyes adatoknak minősülő információkra. Jelen cikk írásakor ez részben még a megvalósulás előtt áll, azonban számos biztató kutatás zajlik olyan módszerek kidolgozására, amelyek azt lehetővé tennék. Az egyik ilyen a federált tanulási modellek köre.

A federált tanulás olyan gépi tanulási módszer, amely lehetővé teszi több eszköz egyetlen modellben történő együttműködését anélkül, hogy az azokon tárolt adatokat az egyes eszközök megosztanák egy központi szerverrel. Ehelyett a modellt olyan adatokon tanítják be, amelyek megmaradnak a felhasználók eszközein, és a központi szerverre csak a frissített modellparamétereket küldik vissza. Más szavakkal tehát a modell tanítása lényegében minden egyes eszközön és nem egy központi szerveren történik. Ez a módszer különösen hasznos olyan helyzetekben, amikor aggályos szempont az adatvédelem, mivel kiküszöböli annak szükségességét, hogy az adatokat egy központi szerverre küldjék a betanításhoz. A federált tanulás jelentősen csökkentheti a rendszer számítási és tárolási igényeit is, hiszen a felhasznált az adatok többsége az eszközökön marad.[37]

Li Kaj-Fu és Csen Csiu-Fan „Mesterséges Intelligencia 2041 – tíz vízió a technológia és az ember kapcsolatáról” című közös művében olvashatjuk, hogy egy ilyen technológia lényegében egy „a káposzta is megmarad és a kecske is jóllakik” típusú helyzethez vezethetne, amelyben a nagy teljesítményű mesterséges intelligencia és az adatok védelme egyidejűleg teljesülhet. Ennek megoldása lehet a federált tanulási modell, amelynek keretében a mesterséges intelligencia tanítása több decentralizált eszközön, vagy szerveren keresztül történik, amelyek helyi adatmintákat tárolnak. Ez megközelíti a központosított képzés hatásfokát, ugyanakkor nem engedi, hogy a központi MI-tulajdonos lássa az adatokat. A szerzők jelentős előrelépésre számítanak a federált tanulás egyéb privacy-tudatos technikák kapcsán az elkövetkező húsz évben.[38]

A federált tanulás tehát jelentős eredményekkel kecsegtet az adatminimalizálás[39] terén, ugyanakkor újabb kihívásokat is keletkeztet, mint pl. az egyes eszközök által megosztott modellparamétereket érintő információszivárgás az ebből esetlegesen következő újraazonosítás lehetősége, vagy adatbiztonsági problémákat az adatmérgezés[40] típusú támadásokkal szemben.[41]

Eddig, azaz a cikksorozat első és jelen második részében alapvetően az MI tanításával kapcsolatos adatvédelmi dilemmákat fejtegettük. A következő rész ettől eltérően már az MI élesüzemi működése során felmerülő kérdésekkel fog foglalkozni.

A cikk szerzője dr. Csenterics András LL.M ügyvéd, technológiai jogi szakjogász, a Réti, Várszegi és Társai Ügyvédi Iroda | PwC Legal ügyvédi iroda tagja. A Réti, Várszegi és Társai Ügyvédi Iroda | PwC Legal ajogászvilág.hu szakmai partnere.


Lábjegyzetek:

[1] GDPR 6. cikk (1) bekezdés a) b) és f) pontok

[2] Megjegyzést érdemel, hogy az MI élesüzemű használata kapcsán már annál inkább felmerülhet ennek a jogalapnak a használata, gondoljunk pl. egy MI-alapú diagnosztizáló rendszerre, amely a diagnózis alapján pl. valamely életmentő beavatkozást is elvégez a betegen.

[3] Most tekintsünk el azoktól a speciális esetektől, amikor valamely MI megoldás tanítására és működtetésére – pl. közegészségügyi, járványügyi célból – kifejezett jogi kötelezettség áll fenn, vagy az valamely közfeladatot ellátó szerv által történik. Ez esetben a jogalap megállapítására a vonatkozó (pl. egészségügyi) szektorális szabályozást is figyelembe véve kerülhetne sor.

[4] A GDPR-hoz kapcsolódóan a hozzájárulásra vonatkozó jogértelmezés mára egységesnek tekinthető és annak alapjait a 29-es Munkacsoport fektette le vonatkozó (WP259 rev.01.) iránymutatásában. Ennek az iránymutatásnak lépett helyébe az 5/2020 Iránymutatás (elfogadás időpontja: 2020. május 4.) amely a korábbi állásfoglalásokkal konzisztens a hozzájárulás érvényességi kritériumainak meghatározásakor: eszerint a hozzájárulásnak önkéntesnek, konkrétnak és kellő tájékoztatáson alapulónak kell lennie. (https://www.edpb.europa.eu/sites/default/files/files/file1/edpb_guidelines_202005_consent_hu.pdf)

[5] Az Országos Széchényi Könyvtár webarchívumában található definíció szerint a web scraping nem más mint API-n keresztül vagy egy crawler segítségével webtartalmak begyűjtése, majd ezekből adatok kinyerése automatikus vagy félautomatikus módszerekkel, amelyeket azután egy adatbázis- vagy táblázatkezelőbe töltve ki lehet elemezni tudományos vagy üzleti célokból. Az adatok lehetnek például nevek, telefonszámok és e-mail címek, linkek, technikai jellemzők, a beágyazott metaadatok, vagy az oldalon levő teljes szöveg, vagy az összes kép. (https://webarchivum.oszk.hu/mediawiki/index.php/Web_scraping)

[6] Itt érdemes felidézni az MI Rendelet tartalmát (Preambulum 67) az adatgazdálkodás kapcsán: „A kiváló minőségű adatok és a kiváló minőségű adatokhoz való hozzáférés létfontosságú szerepet játszik számos MI-rendszer struktúrájának biztosításában és teljesítményének garantálásában, különösen a modellek tanítását magában foglaló technikák alkalmazása esetén, annak biztosítása érdekében, hogy a nagy kockázatú MI-rendszer rendeltetésszerűen és biztonságosan működjön, és ne váljon az uniós jog által tiltott megkülönböztetés forrásává. A tanításhoz, validáláshoz és teszteléshez használt kiváló minőségű adatkészletekhez megfelelő adatkormányzási és adatgazdálkodási gyakorlatokra van szükség. A tanításhoz, validáláshoz és teszteléshez használt adatkészleteknek, beleértve a címkéket is, relevánsnak, kellően reprezentatívnak, valamint a lehető legnagyobb mértékben hibáktól mentesnek és teljesnek kell lenniük a rendszer rendeltetése szempontjából.….Az adatkészleteknek a lehető legnagyobb mértékű teljességére és hibamentességére vonatkozó követelmény nem érintheti a magánélet védelmét szolgáló technikák használatát az MI-rendszerek fejlesztésével és tesztelésével összefüggésben.”

[7] Angolszász tranzakciós jogban gyakran használt kifejezés, jelentése kb. az, hogy alkunak nincs helye, a másik fél az adott tartalommal fogadja el a szerződést, vagy nincs szerződés.

[8]Európai Bíróság C‑252/21 ügyben (Meta Platforms Inc. and Others v. Bundeskartellamt) 2023. július 4-én hozott ítélete, 155/1. pont: “Point (b) of the first subparagraph of Article 6(1) of Regulation 2016/679 must be interpreted as meaning that the processing of personal data by the operator of an online social network, which entails the collection of data of the users of such a network from other services of the group to which that operator belongs or from visits by those users to third-party websites or apps, the linking of those data with the social network account of those users and the use of those data, can be regarded as necessary for the performance of a contract to which the data subjects are party, within the meaning of that provision, only on condition that the processing is objectively indispensable for a purpose that is integral to the contractual obligation intended for those users, such that the main subject matter of the contract cannot be achieved if that processing does not occur”;

[9] European Data Protection Board Opinion 08/2024 on Valid Consent in the Context of Consent or Pay Models Implemented by Large Online Platforms Adopted on 17 April 2024

[10] AZ EURÓPAI PARLAMENT ÉS A TANÁCS (EU) 2022/1925 RENDELETE (2022. szeptember 14.) a digitális ágazat vonatkozásában a versengő és tisztességes piacokról, valamint az (EU) 2019/1937 és az (EU) 2020/1828 irányelv módosításáról (digitális piacokról szóló jogszabály) 5. cikk (2) bekezdés

[11] https://www.europarl.europa.eu/RegData/etudes/STUD/2020/641530/EPRS_STU(2020)641530_EN.pdf

[12] Amennyiben a rendelkezésre álló – és akár MI tanítására is használható – adatok köre elér egy kritikus szintet, úgy annak monetáris értékké konvertálása útján az adott szolgáltató domináns piaci pozícióba kerülhet (vagy már meglévő domináns pozícióját tovább erősítheti) és akár meg is akadályozhatja a kisebb versenytársak érvényesülését, vagy piacra lépését. Egy olyan gyakorlat, amely egy ÁSZF elfogadásával, mintegy automatikusan lehetővé teszi a lényegében korlátlan adatgyűjtést tanítási céllal, ezt a tendenciát erősítheti.

[13] https://help.x.com/en/rules-and-policies/data-processing-legal-bases

[14] Szó szerint: „Without this training and processing, people would not have access to a large range of information, opinions, viewpoints and accurate summaries and X would have a more difficult time providing relevant, accurate and appropriate responses.”

[15] 2024 júniusában a Meta esetében is lépett az ír felügyeleti hatóság, amikor az a Facebook-on és az Instagram-on közzétett tartalmakat kívánta volna tanítási céllal felhasználni. A hatóság felhívására a Meta bejelentette, hogy határozatlan időre elhalasztja ezen, tanítási célú adatkezelésének bevezetését.

[16] https://www.dataprotection.ie/en/news-media/press-releases/data-protection-commission-welcomes-conclusion-proceedings-relating-xs-ai-tool-grok

[17] Az ír felügyeleti hatóság az eljárásról közölt összefoglalójában azt is kiemelte, hogy kéréssel fordult az Európai Adatvédelmi Testülethez arra vonatkozóan, hogy az adjon ki állásfoglalást az MI modellek tanításának adatvédelmi jogi vonatkozásairól, ideértve kifejezetten a megfelelő jogalap kérdését is.

[18] https://www.cnil.fr/en/legal-basis-legitimate-interests-focus-sheet-measures-implement-case-data-collection-web-scraping

[19] https://www.cnil.fr/en/relying-legal-basis-legitimate-interests-develop-ai-system

[20] Utóbbi kapcsán figyelemreméltó a CNIL azon álláspontja is, mely szerint, ha ilyen szűrők alkalmazása mellett, mégis, eshetőleges és reziduális alapon különleges adatok kerülnek az adatkezelőhöz holott azok gyűjtésére nem terjedt ki a szándéka, akkor mindez – az Európai Unió Bíróságának C-136/17 sz. ítéletében foglaltakkal összhangban – nem tekintendő jogsértőnek.

[21] MI Rendelet 10. cikk

[22] Eredetiben: „développer de nouveaux systèmes et fonctionnalités pour les utilisateurs d’un service”; proposer un service d’agent conversationnel pour assister les utilisateurs” és „améliorer un produit ou un service pour augmenter sa performance” (https://www.cnil.fr/fr/base-legale-interet-legitime-developpement-systeme)

[23] https://www.edpb.europa.eu/system/files/2024-05/edpb_20240523_report_chatgpt_taskforce_en.pdf – 15. pont

[24] https://www.edpb.europa.eu/system/files/2024-05/edpb_20240523_report_chatgpt_taskforce_en.pdf – 16. pont

[25] https://www.autoriteitpersoonsgegevens.nl/actueel/ap-scraping-bijna-altijd-illegaal

[26] MI Rendelet 10. cikk (2) bekezdés b) pont

[27] GDPR 6. cikk (4) bekezdés

[28] GDPR preambulum (50)

[29] MI Rendelet 10. cikk (5) bekezdés

[30] GDPR 9. cikk (1) bekezdés

[31] GDPR 25. cikk

[32] https://www.edpb.europa.eu/system/files/2024-05/edpb_20240523_report_chatgpt_taskforce_en.pdf – 19. pont

[33] https://www.edpb.europa.eu/system/files/2024-05/edpb_20240523_report_chatgpt_taskforce_en.pdf – 18. pont

[34] Jó példa lehet arra, amikor ez a szándék nem feltétlenül áll fenn a közösségi média esete, amikor valakit egy ismerőse megjelöl egy fotón, bár erre rögtön mondhatnánk – az adatkezelő szemszögéből – hogy a vonatkozó ÁSZF elfogadásával lényegében tudomásul vette a publikussá válás lehetőségét, ezáltal mintegy hozzájárult ahhoz.

[35] „Numerous supposedly anonymous datasets have recently been released and reidentified. In 2016, journalists reidentified politicians in an anonymized browsing history dataset of 3 million German citizens, uncovering their medical information and their sexual preferences. A few months before, the Australian Department of Health publicly released de-identified medical records for 10% of the population only for researchers to reidentify them 6 weeks later. Before that, studies had shown that deidentified hospital discharge data could be reidentified using basic demographic attributes and that diagnostic codes, year of birth, gender, and ethnicity could uniquely identify patients in genomic studies data. Finally, researchers were able to uniquely identify individuals in anonymized taxi trajectories in NYC, bike sharing trips in London, subway data in Riga, and mobile phone and credit card datasets.” – Rocher et al: Estimating the success of re-identifications in incomplete datasets using generative models Luc Rocher, Julien M. Hendrickx, Yes-Alexandre de Montjoye: Estimating the success, of re-identifications in incomplete datasets using generative models (https://www.nature.com/articles/s41467-019-10933-3)

[36] https://www.europarl.europa.eu/RegData/etudes/STUD/2020/641530/EPRS_STU(2020)641530_EN.pdf – 36. oldal: „AI and more generally methods for computational statistics, increases the identifiability of apparently anonymous data, since they enable nonidentified data (including data having been anonymised or pseudonymised) to be connected to the individuals concerned.”

[37] Tatjana Ponorac: Öt újonnan megjelenő trend a mélytanulás és a mesterséges intelligencia terén, amelyekre 2023-ban érdemes odafigyelni (Bajka Györgyi fordítása), https://epale.ec.europa.eu/hu/content/ot-ujonnan-megjeleno-trend-melytanulas-es-mesterseges-intelligencia-teren-amelyekre-2023

[38] Li Kaj-Fu, Csen Csiu-Fan: Mesterséges Intelligencia 2041, Tíz vízió a technológia és az ember kapcsolatáról, 440. oldal (HVG Könyvek, Budapest, 2022)

[39] Érdemes itt felidézni azt az ellentmondást, amely az MI „adatéhsége” és az adatvédelmi szabályozás adatminimalizálásra törekvése között feszül, ld. pl.: „AI-based automated decision-making seems to be in an inherent conflict with data protection: whereas these decisions usually require a large amount of personal data, data protection principles, such as data minimization try to reduce the amount of personal data being processed” Adrienn Lukács, Szilvia Váradi: GDPR-compliant AI-based automated decision-making in the world of work, megjelent: Computer Law & Security Review, volume 50, September 2023

[40] „Felmerülhet az úgynevezett adatmérgezés esete, amikor a támadó rosszindulatú példákat helyez el a modell tanítási adatbázisában, amivel hatással tud lenni a modell minden alkalmazására, oly módon, hogy ezzel a modell teljesítményét rombolja” (Erdélyi Dóra – Leiter Miklós Patrik: Kérdezz bármit, tudom a választ! – avagy a ChatGPT adatvédelmi kérdései, különös tekintettel a személyes adatok védelmére és a kockázati besorolásra, https://bm-tt.hu/wp-content/uploads/2024/04/2024_1_Erdelyi-Leiter-cikk.pdf

[41] https://www.edps.europa.eu/press-publications/publications/techsonar/federated-learning_en

 

dr. Csenterics András kollégánk cikksorozata a Wolters Kluwer Jogászvilág kiadványában.

Megosztás