T U D O M Á N Y O S TÁ J É K O Z TA T Ó
T U D O M Á N Y O S TÁ J É K O Z TA T Ó
KÖZGAZDASÁGI SZEMLE, LXVI. ÉVF., 2019. NOVEMBER (1230 –1236. o.)
XXXXX XXXX
A KRTK Adatbank Kapcsolt Államigazgatási Paneladatbázisa
A Közgazdaság- és Regionális Tudományi Kutatóközpont Adatbankjában létre- jött a legújabb Kapcsolt Államigazgatási Paneladatbázis, az Admin3. A külön- böző államigazgatási nyilvántartások személyi szintű adatösszekötése – a korábbi hullámokhoz hasonlóan (Admin1 és Admin2) – lehetővé teszi a magyar lakosság 50 százalékos mintáján a népesség munkaerőpiaci, munkanélküliségi, oktatási és egészségügyi jellemzőinek tudományos vizsgálatát 2003 és 2017 között. Az egyéni és vállalati szintű, hosszú idősoros, ugyanakkor természetes azonosítókat nem tartalmazó paneladatbázis egyedülállóan szerteágazó tartalmú. Az Admin3 forrásregiszterei között szerepelnek a Nemzeti Egészségbiztosítási Alapkezelő, a Magyar Államkincstár, az Oktatási Hivatal, a Pénzügyminisztérium és a Nem- zeti Adó- és Vámhivatal adatbázisai.*
Journal of Economic Literature (JEL) kód: C8, C80, C81, C82, C89.
2019 nyarán a Közgazdaság- és Regionális Tudományi Kutatóközpont (KRTK) Adatbankja1 harmadik alkalommal hozta létre az Kapcsolt Államigazgatási Paneladatbázist. A kapcsolt államigazgatási paneladatbázisok – így az Admin3 (2003–2017) is – adatintegrációs eljárással készültek, anonimizált módon, ugyan- akkor egyéni szinten tartalmazzák a magyar lakosság felének egészségügyi, okta- tási, munkaerőpiaci és munkanélküliségi adatait, valamint a magyar vállalatok Bértarifa-felvételben szereplő tulajdonságait. A létrejött adatbázisok nem tartal- maznak természetes azonosítókat és háztartástáblát, ugyanakkor kutatási szem- pontból egyedülállóan részletesek.
Az adatbázis korábbi hullámai széles körben ismertek és elismertek a hazai és a nemzetközi tudományos élet különböző területein egyaránt. A korszerű nemzetközi
* Köszönettel tartozom az KRTK Adatbank munkatársainak: Xxxxxx Xxxxxxxxx, Xxxxxxxxxx Xxx- nak, Xxxxx Xxxxxxxx, Xxxxx-Xxxxx Xxxxxxxxxxxx, Xxxxx Xxxxxxxx és Xxx Xxxxxxxxxx.
1 Korábban: Magyar Tudományos Akadémia Közgazdaság- és Regionális Tudományi Kutatóköz- pont (MTA KRTK) Adatbankja.
Az adatösszekötés
Az államigazgatásban felgyűlő információk kutathatósága nagy múltra tekint vissza Magyarországon. A Központi Statisztikai Hivatal adminisztratív adatkezelési gya- korlatát, valamint az államigazgatási tevékenység során összegyűlt adatok kutatási felhasználásának lehetőségét a vonatkozó nemzetközi és magyar jogszabályok – lásd például az általános adatvédelmi rendeletet (General Data Protection Regulation, GDPR) – mind rögzítik. Ezek alapján forrásregisztert érintő, illetve több nyilvántar- tás együttes vizsgálatát célzó kutatási adatbázisok egyaránt létrehozhatók. Ez utób- bit a döntés-előkészítéshez szükséges adatok hozzáférhetőségének biztosításáról szóló 2007. évi CI. törvény teszi lehetővé. Az egyesített adatbázisok előállításához szükséges adatintegrációt a fenti törvényben rögzített költségvetési szervek vezetői indíthatnak, amelyet technikailag kizárólag a Nemzeti Infokommunikációs Szolgáltató Zártkö- rűen Működő Részvénytársaság (NISZ Zrt.) hajthat végre.
A Kapcsolt Államigazgatási Paneladatbázis összes hullámának alapelve, hogy az adott összekötés időpontjában fellelhető és összekapcsolható összes kutatási célra fel- használható regisztert egyesíti. Így a legutóbb összekapcsolt Admin3-ban a Nemzeti Egészségbiztosítási Alapkezelő (NEAK), a Magyar Államkincstár (MÁK), az Oktatási Hivatal (OH), a Pénzügyminisztérium (PM) és a Nemzeti Adó- és Vámhivatal (NAV) egyéni és vállalati szintű adatai lettek összekötve. Az összekapcsolásnak köszönhe- tően összefüggéseikben is kutatható adatkörök – hasonlóan a korábbi kapcsolt állam- igazgatási paneladatbázisokhoz – a következők.
Egészségügyi terület: a társadalombiztosítási azonosító jelből (TAJ) képzett anonimizált azonosító és a TAJ-regiszter, lakcímadatok, társadalombiztosítási jogviszonyra vonatkozó, közgyógyellátási, háziorvosi, járóbeteg- és fekvőbeteg- ellátási, halálozási, vénykiváltási, társadalombiztosítási és pénzbeli ellátási ada- tok, egyéni szinten.
Munkaerőpiaci terület: munkavállalói, munkaerőpiaci, közfoglalkoztatási és munkaerő-kiközvetítési adatkörök, egyéni szinten.
Szociális transzferek területe: nyugdíjfolyósítási, pénzbeli ellátási, munka- nélküliségi, munkaerőpiaci programokhoz kapcsolódó adatok, egyéni szinten.
Oktatási terület: felsőoktatási képzés, felősoktatási jogviszony, köznevelési jog- viszony, érettségi, országos kompetenciamérés adatai, egyéni szinten.
Vállalati terület: társasági adó (tao) bevallásból és a Bértarifa-felvételből szár- mazó adatok, vállalati szinten, ugyanakkor egyénekhez köthetően.
Az adatintegrációs eljárás alapja a különböző államigazgatási regiszterek egyéni szintű, esetleg valamely egyéb egyedi azonosítóval rendelkező egységek szerinti összekötése. Így annak eredményeként a különféle adminisztratív regiszterek
Mivel a Kapcsolt Államigazgatási Paneladatbázis teljes népességet érintő, univer- zális kutatási alapanyag, így a vizsgált mintában szereplők száma nem haladhatja meg a teljes sokaság 50 százalékát [335/2007. (XII. 13.) kormányrendelet]. A minta leválogatását ez alkalommal is a Nemzeti Egészségbiztosítási Alapkezelő mint a tel- jes magyar népességet kvázilefedő nyilvántartó végezte, a 2003-ban TAJ-számmal rendelkezők állományából. Az alapsokaság leválogatása a többi adatgazda számára is ismeretes kapcsolati kódok (TAJ-szám) listájának létrehozásával kezdődik. Az anonim adatkapcsolásért felelős NISZ Zrt. által kifejezetten az adott összekötéshez generált hash-algoritmus2 segítségével, az alapsokaságot leválogató regiszter kezelője az eredeti kódokhoz egyedi, technikai azonosítókat rendel. A következő lépésben a többi adatközlő is leválogatja az alapsokasághoz kapcsolódó adatait, és hashelt álla- potban továbbadja azt a NISZ Zrt. számára, amely végül egyesíti és anonimizálja az adatbázist. Így a létrejött adatbázis nem tartalmaz természetes azonosítókat. A kap- csolt államigazgatási paneladatbázisok esetében az egyéni adatok összekapcsolásán (TAJ-szám-sokaságon) kívül a munkáltatói adatok is hasheltek: a foglalkoztatói adó- szám segítségével a munkáltatók pénzügyminisztériumi bértarifa-, NAV- és MÁK- adatokat is egyesíti az adatbázis. Az egyesítés után az eredeti azonosítókat (például a TAJ-számot és a foglalkoztatói adószámot) elvesztve, ugyanakkor a személyek ada- tait összekötve kapta meg az KRTK Adatbank nyers, kutatásra még alkalmatlan for- mában. Ezt követően kezdődik az adatok tisztítása, kutatási kérdésekhez simítása.
Az adminisztratív adatok sajátosságai
Az eljárásból következően az adatintegráció kényszerűen magában hordozza és továbbörökíti az adatszolgáltatók tartalmi és adatrögzítési hibáit. Az elemzéshez szükséges előzetes tisztítás és adatértelmezés során figyelembe kell venni, hogy az adminisztratív adatoknak célhoz kötött tartalma, terminológiája és struktúrája van, azaz elsősorban az államigazgatási nyilvántartások szempontrendszere által orientált logika alapján jönnek létre. Ezek ismerete a kutatási kérdés szempontjá- ból releváns adatkörök tekintetében feltétlenül szükséges az adatok kutatási célú feldolgozásához és elemzéséhez.
2 A Hash-algoritmus egyirányú kódolási gyakorlat, amely a bemeneti adatból a következő feltételek teljesülése mellett képez kimeneti adatot: adott bemeneti információból mindig ugyanazt a kimenetet adja, valamint a kimeneti adat egyértelműen utal a bemeneti adatra, de a kimeneti adatból nem állít- ható elő a bemeneti adat. Az eljárásban a bemeneti adat legkisebb változása is teljesen más kimenetet eredményez. Hash-módszereket használnak tömörítési, jelszótárolási, keresési eljárásokhoz is. Ese- tünkben az eljárás az anonim technikai azonosítók létrehozását szolgálja.
Az adatösszekötést követően hosszú idősoros paneladatbázist készít a KRTK Adat- bank, amely a legfrissebb összekötés során több száz nyers mező harmonizálásával jön létre. A szakszerű – több mint tízéves időszakot átfogó – adattisztítás hosszú időt vesz igénybe. Éppen ezért a jelenleg összekapcsolt adatbázis tudományos célú elem- zésére leghamarabb 2020–2021 folyamán kerülhet sor.
Az adattisztítás
Az adattisztítás és harmonizálás sajátos módon, az adatok adminisztratív tulajdonsá- gaihoz alkalmazkodik. Az egyesített paneladatbázisok adatai részben strukturáltak, az időbeliség dimenzióját tekintve statikusak, ugyanakkor időben visszafele longitu- dinális kutatást tesznek lehetővé. A megfigyelhető egység az adminisztratív státusok változása, tehát vélemények helyett konkrét viselkedések vizsgálhatók.
Az adminisztratív adatok itt részletezett tulajdonságai miatt a longitudinális és a keresztmetszeti konzisztenciavizsgálatok egyaránt részét képezik az adattisz- títás folyamatának. A keresztmetszeti konzisztenciavizsgálat során a különböző mezők tartalmának adott időpontra vonatkozó összevetését végezzük. Az eljárás során felmerülő anomáliák megismerésével képet kaphatunk az adatok korlátairól is. Az adminisztratív jelleg miatt a tág értelemben vett adatkörnyezet vizsgálata is elkerülhetetlen a teljes vizsgálati időtartamra vonatkozóan – amennyiben a folya- matok, időbeli változások követése kutatási cél –, retrospektív módon (Veroszta [2015]). Ezzel párhuzamosan, az adatok longitudinális ellenőrzésével az évről évre változó adatkörök tartalmát, változásait figyeljük meg. Emellett az adatok értelme- zéséhez elengedhetetlen a kódszótárak frissítése is a teljes megfigyelési időszakra. A tisztítás során a fent részletezett megalapozó vizsgálatokat követően, elemzői döntések nyomán nyerhető ki a kutatási kérdéseknek megfelelő adattartalom az
A szűk értelemben vett adatbanki tisztítás a beérkezett adatok, tehát az adatszol- gáltatók és a NISZ Zrt. munkájának áttekintésével kezdődik. Az adatátadás ellenőr- zése is a korábban részletezett adminisztratívadat-sajátosságok figyelembevételével történik. Az átadott adatok ellenőrzése után, a nyers adatmezők iteratív átalakítása során különféle kutatási kérdéseknek megfelelő változók létrehozása következik, elő- ször csupán az egyes adatforrások regisztertartalmán belül.
Miután adatforrásonként megtörtént az adatok tisztítása, megismerése és harmo- nizációja, kezdetét veszi a szűkített, ugyanakkor legfontosabb változókat összekap- csolva tartalmazó óriás adatbázis felépítése. Az így létrejött adatbázis az Admin3 esetében az egyének 2003 és 2017 közötti, havi szintű státusait tartalmazza. A longi- tudinális (időbeli) és keresztmetszeti (különböző adatközlők összevetésén alapuló) harmonizációs, ellenőrzési és tisztítási hullám is ebben a fázisban zajlik, valamint ekkor jönnek létre a több adatforrásból származó változók. Az összekapcsolást követően meg- mutatkozó adatbázis-inkozisztenciákat (folyamatában) kezeljük.
Ezáltal létrejön egy nagy részben konzisztens óriás adatbázis. Ezen a bonyolul- tabb változókat felhasználva összetett vizsgálatok, minikutatások indulnak, annak érdekében, hogy a későbbi adatfelhasználáskor felmerülő potenciális adathibákra fény derüljön. Az ilyen módon felmerülő kérdések és megoldások szintén beépül- nek a javított adatbázisba.
Ezt követi a harmonizáció kollektív fázisa, amelynek során a tudományos közös- ség különböző területeiről érkező szakértők lehetőséget kapnak a Kapcsolt Állam- igazgatási Paneladatbázis használatára, ezzel együtt a korábbi tapasztalataik tisz- títási eljárásba építésére, annak tökéletesítésére. A kollektív harmonizáció fázi- sában gyűjtött információk (akár megírt programkódok) beépülnek a következő Admin-hullám első körös adatbanki tisztításaiba, organikus módon folyamatosan továbbfejlesztve azt. Hasonló módon, minden későbbi adathasználat során felme- rülő kérdés, probléma és visszajelzés, valamint az azokra megírt programkódok is beépülnek az Admin-fáljok tisztító programjába.
Hozzáférés
Az adatintegráció során a NISZ Zrt. anonimizálja az adatokat, így azok elvesztik az utólagos azonosításra alkalmas vonásaikat. Az ilyen módon létrehozott adatbázisok nyers adattartalmának közzétételét szintén a NISZ végzi. Az adatösszekötések nyers tartalmát leíró változókat és a partnerek listáját a kapcsolódó szerződés melléklete tartalmazza, amihez a NISZ Zrt. kérésre hozzáférést biztosít a már említett 335/2007. (XII. 13.) kormányrendelet alapján.
A fenti szempontok szerint tisztított, jellemzően havi bontású egyéni státusokat tartalmazó óriás adatbázist az Adatbank a tisztítás kollektív szakaszában csupán a KRTK kutatói számára teszi közzé, akik ekkor részt vesznek a szakirányú adat- tisztítási munkában.
A szakirányú tisztítást követően a kapcsolt államigazgatási paneladatbázisokhoz doktori disszertációkhoz és szakdolgozatokhoz minden esetben, valamint megfelelő affiliáció és kutatási cél esetében adhatunk hozzáférést. Jelenleg az Admin1 (2002– 2008) és az Admin2 (2003–2011) adatbázis érhetők el. Az adatbázisokon folyó munka biztonságos szerver- és STATA-alapú szoftverkörnyezetben történik, amely haszná- latára az adatkérő lapon szereplő, előre rögzített határidőig van mód.
Kutatási relevancia, jelentőség
A Kelet- és Közép-Európában egyedülállóan gazdag Admin-adatbázisokat széles körben használják hazai és nemzetközi kutatói körökben. Kifejezetten alkalma- sak színvonalas nemzetközi folyóiratokban megjelenő tudományos eredmények, publikációk előállítására, hiszen szerteágazó tudományterületeken lehetősé- get nyújtanak összetett longitudinális és keresztmetszeti elemzésekre. A Kap- csolt Államigazgatási Paneladatbázis jelenleg kutatási céllal elérhető Admin1 és Admin2 hullámait eddig több mint 80 kutatás során használta közel félszáz kutató. Az egészségtudomány, az egészségpolitika, a regionális tudományok, a munka- gazdaságtan, a vállalatkutatás, a migrációkutatás, az agronómia és szociálpolitika területén egyaránt találunk Admin-alapú, éppen folyó kutatásokat, illetve már megjelent nemzetközi tudományos publikációkat.
A létrejött tudományos produktumok számos hazai szakmai folyóirat mellett nemzetközi tudományos lapokban is megjelennek, ilyenek többek közt az Ameri- can Economic Journal (Lindner–Reizer [2019]), a Quarterly Journal of Economics (DellaVigna és szerzőtársai [2017]), a Health Economics (Bíró–Elek [2018]), az IZA Journal of European Labor Studies (Czafit–Köllő [2015]) és a Scandinavian Journal of Public Health (Adamecz-Xxxxxx Xxxx és szerzőtársai [2018]) vagy a Research in Labor Economics (Csillag [2019]) könyvsorozat.
A kapcsolt államigazgatási paneladatbázisok legutolsó, Admin3 hullámának meg- valósulása az államigazgatási regiszterek adattartalmának folyamatos javulása miatt hosszabb idősorokat és pontosabb adatokat tartalmaz. Ennek mértéke elsősorban az oktatás területén, különösen az egyelőre még rövid múltra visszatekintő Országos kompetenciamérés szempontjából jelentős.
Kapcsolat
A KRTK Adatbankja Magyarországon egyedülállóan szerteágazó témákban gyűjt survey- és adminisztratív alapú kutatási adatbázisokat, alakít ki és üzemeltet tel- jes körű mikroadatok vizsgálatára alkalmas kutatószobát, hoz létre regiszteralapú, adatintegrációs eljárással készült adatbázisokat, szervez STATA-képzéseket, vala- mint tart fenn kísérleti labort és ahhoz tartozó gépparkot. Általános tájékoztatást az xxxxxxxx@xxxx.xxx.xx email-címen nyújtunk, míg adatkéréssel kapcsolatosan az xxxxxxxxx@xxxx.xxx.xx email-címen lehet érdeklődni.
A K R T K A D A T B A N K K A P C S O L T Á L L A M I G A Z G A T Á S I …
Hivatkozások
Xxxxxxx-Xxxxxx Xxxx–Xxxxxx Xxxxxxx–Lévay–Xxxxxxx Xxxxx [2018]: Impact of a person- alised active labour market programme for persons with disabilities. Scandinavian Journal of Public Health, Vol. 46. Suppl. 19. 32–48. o. xxxxx://xxx.xxx/00.0000/0000000000000000.
Xxxx Xxxxx–Xxxx Xxxxx [2018]: How does retirement affect healthcare expenditures? Evi- dence from a change in the retirement age. Health Economics, Vol. 27. No. 5. 803–818. o. xxxxx://xxx.xxx/00.0000/xxx.0000.
Xxxxxx Xxxxx–Xxxxx Xxxxx [2015]: Employment and wages before and after incarceration. Evidence from Hungary. IZA Journal of European Labor Studies, No. 4. 1–21. o. https:// xxx.xxx/00.0000/x00000-000-0000-x.
Xxxxxxx Xxxxxx [2019]: The Incentive Effects of Sickness Absence Compensation – Analysis of a Natural Experiment in Eastern Europe. Research in Labor Economics, (Health and Labor Markets), Vol. 47. 195–225. o. xxxxx://xxx.xxx/00.0000/X0000-000000000000000000.
DellaVigna, S.–Xxxxxxx Xxxxxx–Xxxxxx Xxxxxx– Xxxxxxxxx, J. F. [2017]: Reference- dependent job search: evidence from Hungary. Quarterly Journal of Economics, Vol. 132. No. 4. 1969–2018. o.
Xxxxxxx Xxxxxx–Xxxxxx Xxxxxx [2019]: Frontloading the unemployment benefit: an empiri- cal assessment. Megjelenés alatt, American Economic Journal: Applied Economics.
Xxxxxxxx Xxxxxxxxx (2015): Adminisztratív adatok társadalomkutatási kezelése. Educatio,
23. évf. 3. sz. 3–14. o. xxxx://xxx.xx/xxxxx/xxxxxxx/xxxxx/xxxxxxxxxxx/xxxxxxxx_0000-0_xxx_0.xxx.
335/2007. (XII. 13.) Korm. rendelet a döntéselőkészítéshez szükséges adatok hozzáférhető- ségének biztosításáról szóló 2007. évi CI. törvény végrehajtásáról. xxxxx://xxx.xxxxxx.xx/ jogszabaly?docid=A0700335.KOR.
2007. évi CI. törvény a döntéselőkészítéshez szükséges adatok hozzáférhetőségének biztosításáról.xxxxx://xxx.xxxxxx.xx/xxxxxxxxxx?xxxxxxx0000000.xx.