Adatkezelés

 

A kutatás számára egyre fontosabbá válnak a tudományos adatok, az adatcentrumokon keresztül történő elrendezésük, használatuk és az adatmegosztás. Ezért biztosítani kell a kutatási adatokhoz való nyílt hozzáférést.

Berlin Declaration (magyar változat) egyaránt vonatkozik a kutatási adatokra és a publikációkra is.

Az adatok részben önálló gyűjteményekben találhatók meg, részben pedig közvetetten pl. a publikációkhoz csatolva érhetők el.

Az adatok nagy részben a hagyományos akadémiai, illetve egyetemi kutatásokból (ún. small science) tevődik össze.

A kutatás kiterjedtsége és sokfélesége miatt a legnagyobb kihívást az adatok, akár utólagos szabadon elérhetővé tétele jelenti. A nyílt hozzáférés az adatmanipuláció vagy -hamisítás elkerülése, illetve a kutatási eredmények hitelesítése és reprodukálása miatt is szükséges. (Mivel a kutatási adatok egyre terjedelmesebbek és összetettebbek, ezért ma már csak ritkábban – például táblázatba foglalva – szerepelnek a munkák mellett.)

Kifejezetten adatközpontú a big science: a bioinformatika és a (megfigyelő) környezettudományok elsősorban adatokon alapulnak, amelyek kinyerése, elemzése és interpretációja gyakran különböző munkaszinteken történik.

A big science főleg együttműködésen alapul, amiben jelenleg szerkezetváltás zajlik, mégpedig az e-science irányába. A partnerek együttműködése az adatmegosztáson alapul felhasználóként és adatszállítóként is.

Az adatokat rendszerezve és hálózatba foglalva adatcentrumokban vagy adatbankokban tárolják Az adatokhoz való nyílt hozzáférés olyan többletérték, amely mindenképp kifizetődő és teljesen új utakat nyit meg a kutatásban.

Kiemelkedő példát nyújtanak a GenBank és Protein Structure Database adatbázisok: „A genom projekt sikeressége annak a ténynek köszönhető, hogy a DNS-láncokkal kapcsolatos publikációk a világ összes könyvtárában nyilvánosan hozzáférhetők voltak az elmúlt 20 évben. Ha ezek a DNS-láncok csak a hagyományos publikációs csatornákon keresztül lettek volna elérhetők – nem lett volna genom projekt” (Patrick Brown 2004). A DNS-re vonatkozó, környezeti- és más adatok utólagos újraértelmezésével például megtalálták a kolera terjedésének módját, amelyet másképpen nem lehetett volna felfedezni.

 

Az adatokhoz való nyílt hozzáférés előnyei

  • Az adatalapú kutatási eredmények kritikai ellenőrzésen esnek át és hitelesek
  • Kizárható bizonyos kutatási munkák többszöri elvégzése
  • Megvalósul (pl. további projektekben) az adatok és felhasználásuk módjának átfogó tudományos kiértékelése
  • Meggyorsítható a kutatási folyamat az adatmegosztás segítségével
  • A különböző források adatainak összegzése újabb felismerésekhez vezethet
  • Az adatok összegyűjtésével és rendezésével létrejövő információs többletértékkel magas tudományos értékű adattermékek (pl. mutatótáblák, adatbázisok) állíthatók elő
  • A közösen épített és használt adatgyűjtemények költséghatékonyabbak
  • Elősegíti az adatok felhasználóii és gazdasági újrahasznosítását.

 

Adatokhoz való nyílt hozzáférés elősegítése tudományos szervezeteken keresztül

Egyes szakterületekre, mint amilyen az asztrofizika, energiafizika és a molekuláris biológia, az jellemző, hogy az adatok keletkezésük után nem sokkal hozzáférhetővé válnak, az adatforrásokat vagy a publikációkhoz tartozó adatokat egy központi adatbázisban vagy a publikációhoz csatolva bocsátják rendelkezésre.

Committee on Data for Science (CODATA), amely a International Council for Science (ICSU) alszervezete, illetve a minőségmenedzsment és a tudományos adatok cseréjének nemzetközi szervezete, a 2002-ben megjelent Principles for Dissemination of Scientific Data elveiben az adatok nyílt hozzáférését támogatja.

Az OECD, a Committee for Scientific and Technological Policy (CSTP) támogatja a jogi és gazdasági érdekek figyelembevételével a kutatási eredmények nyílt hozzáférését a Declaration on Access to Research Data from Public Funding nyilatkozatában.

National Institutes of Health (NIH) az 500.000 dollárt meghaladó támogatások odaítélését az adatmegosztás kötelezettségéhez köti.

Welcome Trust a kutatási adatok nyílt hozzáféréséhez egy nyilatkozatot készít elő.

Helmholtz Gesellschaft stratégiája és munkaterve tartalmazza az elsődleges tudományos adatok tárolását a társaság adatcentrumában.

Deutsche Forschungsgemeinschaft (DFG) kötelezi a projektben résztvevőket az adatok archiválására legalább öt éves időtartamra.

 

Adatok megjelenítésének követelményei

A tudományos publikációkhoz hasonlóan az adatok hosszú távú elérésének biztosításáért a következő követelményeknek megfelelően kell az adatokat tárolni:

  • Hosszú távú elérhetőség biztosítása hosszú távon elérhető azonosítókkal (Persistent Identifiers). A kedvelt azonosító a DOI.
  • Az adatok, illetve adatgyűjtemények leírása (metaadat-meghatározás). Ez nagyon lényeges az adatok megjelenésekor, de függetlenül tárolódnak a hozzátartozó publikációtól pl. adatcentrumokban.

A leírás az ISO-szabvány és a szakterületi leíráselemek (pl. a kémiában IUPAC Chemical Identifier) alapján történik. A Small Science adatok személyes archiválása esetén egyszerűbb sémák is használhatók, mint a Dublin Core.

  • forrásadatok és licencfeltételek rögzítése az adatfájlokban (pl. egységesen titkosított azonosítókkal)

 

Jogi kérdések

Ezen a területen specifikus jogi problémák és követelmények is fennállnak.

Ahhoz, hogy biztosítani lehessen a szerzők jogait, ezen a területen is ajánlott a Creative-Commons-licenszrendszer.

Egy olcsóbb – de nehezebben megvalósítható és jóváhagyható – lehetőség az, ha az adatok újrafelhasználói ugyanolyan licensszel publikálnak, mint a jogelődök. Ez sok esetben megköveteli a „fair use” elvét, amely a szerzők számára az adatok megjelenésekor egy meghatározott időre exkluzív használati jogot biztosít.

Mivel a Creative-Commons-licenszrendszer több szemponttól sem veszi figyelembe az összetettséget és az adatlicenszek konkuráló érdekeit, kilenc nemzetközi szervezet, többek között a CODATA, ICSU, WDC (World Data Center) és OECD 2002 végén elindították a „Global Information Commons for Science” kezdeményezést, amely mostanára már 39 taggal (egyetemek, kiadók – a Public Library of Science) bővült.

Az adatok nyílt hozzáférését egy Eu-törvény is szabályozza, amely szerint az EU-országok adattermésére, függetlenül attól, hogy rendelkezik-e szerzői jogvédelemmel vagy nem, szerzői jogi védelmet sui generis határoz meg, ezért ezek az adatok (legalábbis az EU-országokban) nem használhatók a szerzői jogtulajdonos engedélye nélkül.

A német szövetségi minisztériumok és hivatalok által használt adatok nyílt hozzáférését az akadályozza, hogy az adattermelő intézetek (mérési hivatalok, német adatcentrumok, Német Időjárásjelentés) részben az adataik eladásából finanszírozzák működésüket.

 

Infrastruktúra

Az adatok nyílt hozzáférésének támogatása a széleskörű kutatás miatt megfelelő infrastruktúrát kíván meg.

A megfelelő adatcentrumok kiépítéséért támogatási intézetek, egyetemek és nyilvános kutatási intézetek felelősek, illetve illetékesek.

A felelősségi körükbe tartozik a megfelelő adatok és információk kiválasztására, hozzáférésére és használatára vonatkozó irányelvek (Policies) megfogalmazása.

 

Az adatok nyílt hozzáférésének együttműködő és szakterületi kezdeményezései

Alábbi osztályokat lehet megkülönböztetni:

  • Nyílt adatcentrumok és archívumok (pl. GenBank, Protein Data Bank, Digital Sky Survey)
  • Virtuális obszervatóriumok (pl. International Virtual Observatory for Astronomy, Digital Earth)
  • Osztott nyílt adathálozatok (pl. World Data Centres [WDCs], Global Diversity Information Facility, NASA Distributed Active Archive Centers).

 

Adatok nyílt hozzáférésnek jövőbeli kilátásai és akadályozásának okai

Az adatok nyílt hozzáférésnek akadályozási okai többfélék:

  • Míg a Big Science berendezései és programjai nagyrészt megfelelő adattárakkal rendelkeznek, az adatmegosztás területi lefedéséhez hiányzik a megfelelő infrastruktúra (pl. megfelelő adatbázisok). 
  • Az adat-szerzők attól tartanak, hogy adataikat a források feltüntetése nélkül használják más kutatók vagy az értékesítési jogaikban korlátozzák őket.
  • Az adatok előkészítésének és rendelkezésre bocsátásának folyamatai a jelenlegi tudományos rendszerben nincsenek elismerve és az időigény miatt inkább hátrányosan érintik a tudományos karriert.

Ahhoz, hogy a szerzők nyíltan elérhetővé tegyék adataikat, azzal kell őket motiválni, hogy az adatok rendelkezésre bocsátása egyben citálható publikálást és tudományos tevékenységet jelent.

  • Az adatmegosztás – főleg az Open Data Sharing – a kutatás minden területén, amelyben az adatokat használják vagy ahonnan nyerik őket, új együttműködői potenciált jelent és emiatt a kutatás és tudományos támogatás aktív területe.