1. Datuen maskaratzearen kontzeptua
Datuen maskaratzea datuen maskaratze gisa ere ezagutzen da. Datu sentikorrak bihurtzeko, aldatzeko edo estaltzeko metodo teknikoa da, hala nola telefono mugikorreko zenbakia, bankuko txartelaren zenbakia eta bestelako informazioa, maskaratze arauak eta politikak eman ondoren. Teknika hau batez ere datu sentikorrak zuzenean ingurune fidagarrietan erabiltzea saihesteko erabiltzen da.
Datuen maskaratzearen printzipioa: Datuen maskaratzeak jatorrizko datuen ezaugarriak, negozio-arauak eta datuen garrantzia mantendu behar ditu, ondorengo garapena, probak eta datuen analisia maskaratzeak ez dezan eraginik izango. Ziurtatu datuen koherentzia eta baliozkotasuna maskaratzearen aurretik eta ondoren.
2. Datuen maskaratzearen sailkapena
Datuen maskaratzea datu estatikoen maskaratzean (SDM) eta datu dinamikoen maskaratzean (DDM) bana daiteke.
Datu estatikoen maskaratzea (SDM)Datu estatikoen maskaratzeak ekoizpen-ingurunetik isolatzeko ekoizpen-ingurunetik kanpoko datu-base berri bat ezartzea eskatzen du. Datu sentikorrak ekoizpen-datu-basetik ateratzen dira eta gero ekoizpen-datu-basean gordetzen dira. Horrela, datu desentsibilizatuak ekoizpen-ingurunetik isolatzen dira, negozio-beharrak asetzeko eta ekoizpen-datuen segurtasuna bermatzeko.
Datuen maskaratze dinamikoa (DDM)Oro har, ekoizpen-ingurunean erabiltzen da datu sentikorrak denbora errealean desensibilizatzeko. Batzuetan, maskaratze-maila desberdinak behar dira datu sentikor berdinak egoera desberdinetan irakurtzeko. Adibidez, rol eta baimen desberdinek maskaratze-eskema desberdinak ezar ditzakete.
Datuen berri emateko eta datu-produktuen maskaratze-aplikazioa
Eszenatoki horien artean daude batez ere barne-datuen monitorizazio produktuak edo kartelak, kanpoko zerbitzuen datu produktuak eta datuen analisian oinarritutako txostenak, hala nola negozio-txostenak eta proiektuen berrikuspena.
3. Datuen maskaratze-irtenbidea
Datuak maskaratzeko eskema ohikoenen artean daude: baliogabetzea, ausazko balioa, datuen ordezkapena, enkriptazio simetrikoa, batez besteko balioa, desplazamendua eta biribiltzea, etab.
BaliogabetzeaBaliogabetzeak datu sentikorrak enkriptatzea, moztea edo ezkutatzea adierazten du. Eskema honek normalean benetako datuak sinbolo bereziekin ordezkatzen ditu (adibidez, *). Funtzionamendua erraza da, baina erabiltzaileek ezin dute jatorrizko datuen formatua jakin, eta horrek ondorengo datu-aplikazioetan eragina izan dezake.
Ausazko balioaAusazko balioak datu sentikorren ausazko ordezkapenari egiten dio erreferentzia (zenbakiek digituak ordezkatzen dituzte, letrek letrak ordezkatzen dituzte eta karaktereek karaktereak ordezkatzen dituzte). Maskaratze-metodo honek datu sentikorren formatua neurri batean bermatuko du eta ondorengo datuen aplikazioa erraztuko du. Maskaratze-hiztegiak beharrezkoak izan daitezke hitz esanguratsu batzuetarako, hala nola pertsonen eta lekuen izenetarako.
Datuen ordezkapenaDatuen ordezkapena balio nuluak eta ausazko balioak maskaratzearen antzekoa da, baina karaktere bereziak edo ausazko balioak erabili beharrean, maskaratze-datuak balio espezifiko batekin ordezkatzen dira.
Enkriptazio simetrikoaEnkriptazio simetrikoa maskaratze-metodo itzulgarri berezi bat da. Datu sentikorrak enkriptazio-giltzen eta algoritmoen bidez enkriptatzen ditu. Zifratutako testuaren formatua jatorrizko datuekin koherentea da arau logikoetan.
Batez bestekoaBatez besteko eskema askotan erabiltzen da egoera estatistikoetan. Datu numerikoetarako, lehenik haien batez bestekoa kalkulatzen dugu, eta gero ausaz banatzen ditugu balio desentsibilizatuak batez bestekoaren inguruan, horrela datuen batura konstante mantenduz.
Desplazamendua eta biribiltzeaMetodo honek datu digitalak ausazko desplazamendu bidez aldatzen ditu. Desplazamendu biribiltzeak barrutiaren gutxi gorabeherako benetakotasuna bermatzen du datuen segurtasuna mantenduz, aurreko eskemek baino datu errealetatik gertuago dagoena, eta garrantzi handia du datu handien analisi eszenatokian.
Gomendatutako eredua"ML-NPB-5660"Datuen maskaratzerako"
4. Datuak estaltzeko teknika erabilienak
(1). Teknika estatistikoak
Datuen laginketa eta datuen agregazioa
- Datuen laginketa: Jatorrizko datu-multzoaren analisia eta ebaluazioa, datu-multzoaren azpimultzo adierazgarri bat hautatuz, metodo garrantzitsua da desidentifikazio-tekniken eraginkortasuna hobetzeko.
- Datuen agregazioa: Mikrodatuetako atributuei aplikatutako teknika estatistikoen bilduma gisa (adibidez, batuketa, zenbaketa, batez bestekoa, maximoa eta minimoa), emaitza jatorrizko datu-multzoko erregistro guztien ordezkaria da.
(2). Kriptografia
Kriptografia desensibilizazioaren eraginkortasuna hobetzeko edo desensibilizazioa kentzeko metodo arrunta da. Enkriptazio algoritmo mota desberdinek desensibilizazio efektu desberdinak lor ditzakete.
- Enkriptazio determinista: enkriptazio simetriko ez-ausazkoa. Normalean identifikazio datuak prozesatzen ditu eta beharrezkoa denean zifratutako testua deszifratu eta jatorrizko identifikaziora leheneratu dezake, baina gakoa behar bezala babestu behar da.
- Enkriptazio itzulezina: Hash funtzioa datuak prozesatzeko erabiltzen da, normalean ID datuetarako erabiltzen dena. Ezin dira zuzenean deszifratu eta mapatze-erlazioa gorde behar da. Gainera, hash funtzioaren ezaugarriengatik, datuen talka gerta daiteke.
- Enkriptazio homomorfikoa: Testu zifratuaren algoritmo homomorfikoa erabiltzen da. Bere ezaugarria da testu zifratuaren eragiketaren emaitza testu arruntaren eragiketaren berdina dela deszifratu ondoren. Hori dela eta, eremu numerikoak prozesatzeko erabili ohi da, baina ez da oso erabilia errendimendu arrazoiengatik.
(3). Sistemaren Teknologia
Ezabatze-teknologiak pribatutasun-babesa betetzen ez duten datu-elementuak ezabatzen edo babesten ditu, baina ez ditu argitaratzen.
- Maskaratzea: atributuen balioa maskaratzeko desensibilizazio metodo ohikoena da, hala nola aurkariaren zenbakia, NAN txartela izar batekin markatzea edo helbidea moztuta egotea.
- Tokiko ezabapena: atributu-balio espezifikoak (zutabeak) ezabatzeko prozesuari egiten dio erreferentzia, funtsezkoak ez diren datu-eremuak kenduz;
- Erregistroak ezabatzea: erregistro espezifikoak (errenkadak) ezabatzeko prozesuari egiten dio erreferentzia, funtsezkoak ez diren datu-erregistroak ezabatuz.
(4). Ezizenen Teknologia
Pseudomaniming-a identifikazio-ezabatze teknika bat da, identifikatzaile zuzen bat (edo beste identifikatzaile sentikor bat) ordezkatzeko ezizen bat erabiltzen duena. Ezizen teknikek identifikatzaile bakarrak sortzen dituzte informazio-subjektu bakoitzerako, identifikatzaile zuzen edo sentikorren ordez.
- Jatorrizko IDari dagozkion ausazko balioak sor ditzake modu independentean, mapatze-taula gorde eta mapatze-taulara sartzeko modua zorrotz kontrolatu.
- Enkriptazioa ere erabil dezakezu ezizenak sortzeko, baina deszifratzeko gakoa behar bezala gorde behar duzu;
Teknologia hau oso erabilia da datu-erabiltzaile independente kopuru handia dagoenean, hala nola OpenID plataforma irekiko eszenatokian, non garatzaile ezberdinek OpenID desberdinak lortzen dituzten erabiltzaile berarentzat.
(5). Orokortze teknikak
Orokortze teknikak datu-multzo bateko hautatutako atributuen granularitatea murrizten duen eta datuen deskribapen orokorrago eta abstraktuagoa eskaintzen duen desidentifikazio teknika bat aipatzen du. Orokortze teknologia erraza da ezartzeko eta erregistro-mailako datuen benetakotasuna babestu dezake. Datu-produktuetan edo datu-txostenetan erabili ohi da.
- Biribiltzea: hautatutako atributurako biribiltze-oinarri bat hautatzea dakar, hala nola, goranzko edo beheranzko forentsea, 100, 500, 1K eta 10K emaitzak emanez.
- Goiko eta beheko kodeketa teknikak: Atalasearen gainetik (edo azpitik) dauden balioak goiko (edo beheko) maila adierazten duen atalase batekin ordezkatu, "X-tik gora" edo "X-tik behera" emaitza emanez.
(6). Ausazkotze teknikak
Desidentifikazio teknika mota gisa, ausazko teknologiak atributu baten balioa ausazkotasunaren bidez aldatzea dakar, ausazkotasunaren ondorengo balioa jatorrizko benetako baliotik desberdina izan dadin. Prozesu honek erasotzaile batek datu-erregistro bereko beste atributu-balio batzuetatik atributu-balio bat lortzeko duen gaitasuna murrizten du, baina ondoriozko datuen benetakotasunean eragiten du, eta hori ohikoa da ekoizpen-proben datuetan.
Argitaratze data: 2022ko irailaren 27a