Adatokhoz való nyílt hozzáférés
A DEENK Open Access wikiből
Adatokhoz való nyílt hozzáférés
A kutatás számára egyre fontosabbá válnak a tudományos adatok, az adatcentrumokon keresztül történő elrendezésük, használatuk és az adatmegosztás. Ezért biztosítani kell a kutatási adatokhoz való nyílt hozzáférést. Mivel az empirikus tudományok publikációi adatokon alapulnak, a Berlini Nyilatkozat (magyar változat) ugyanúgy vonatkozik az adatokra is, mint a publikációkra. Az adatok részben önálló gyűjteményekben találhatók meg, részben pedig közvetetten pl. a publikációkhoz csatolva érhetők el. Az adatokat nagy részben a hagyományos akadémiai, illetve egyetemi kutatásból (ún. small science) nyerik. A kutatás kiterjedtsége és sokfélesége miatt ezen a területen a legnagyobb potenciált az adatokhoz való, akár utólagos nyílt hozzáférés jelenti. A nyílt hozzáférés az adatmanipuláció vagy -hamisítás elkerülése miatt is szükséges, illetve a kutatási eredmények hitelesítése és reprodukálása is szükségessé teszi. (Mivel a kutatási adatok egyre terjedelmesebbek és összetettebbek, ezért ma már csak ritkábban – például táblázatba foglalva – szerepelnek a munkák mellett.) Kifejezetten adatközpontú a big science: a bioinformatika és a (megfigyelő) környezettudományok elsősorban adatokon alapulnak, amelyek kinyerése, elemzése és interpretációja gyakran különböző munkaszinteken történik. A big science főleg együttműködésen alapul, amiben jelenleg szerkezetváltás zajlik, mégpedig az e-science irányába. A partnerek együttműködése az adatmegosztáson alapul felhasználóként és adatszállítóként is. Az adatokat rendszerezve és hálózatba foglalva adatcentrumokban vagy adatbankokban tárolják Az adatokhoz való nyílt hozzáférés olyan többletérték, amely mindenképp kifizetődő és teljesen új utakat nyit meg a kutatásban. Kiemelkedő példát nyújtanak a GenBank és Protein Structure Database adatbázisok: „A genom projekt sikeressége annak a ténynek köszönhető, hogy a DNS-láncokkal kapcsolatos publikációk a világ összes könyvtárában nyilvánosan hozzáférhetők voltak az elmúlt 20 évben. Ha ezek a DNS-láncok csak a hagyományos publikációs csatornákon keresztül lettek volna elérhetők – nem lett volna genom projekt” (Patrick Brown 2004). A DNS-re vonatkozó, környezeti- és más adatok utólagos újraértelmezésével például megtalálták a kolera terjedésének módját, amelyet másképpen nem lehetett volna felfedezni.
Az adatokhoz való nyílt hozzáférés előnyei
Az adatokhoz való nyílt hozzáférés legfontosabb előnyei összefoglalva:
• Az adatalapú kutatási eredmények kritikai ellenőrzésen esnek át és hitelesek
• Kizárható bizonyos kutatási munkák többszöri elvégzése
• Megvalósul (pl. további projektekben) az adatok és felhasználásuk módjának átfogó tudományos kiértékelése
• Meggyorsítható a kutatási folyamat az adatmegosztás segítségével
• A különböző források adatainak összegzése újabb felismerésekhez vezethet
• Az adatok összegyűjtésével és rendezésével létrejövő információs többletértékkel magas tudományos értékű adattermékek (pl. mutatótáblák, adatbázisok) állíthatók elő
• A közösen épített és használt adatgyűjtemények jobb költséghatékonysággal bírnak
• Elősegíthető az adatok a nyilvánosság általi és gazdasági utóhasználata.
Adatokhoz való nyílt hozzáférés elősegítése tudományos szervezeteken keresztül
Egyes szakterületekre, mint amilyen az asztrofizika, energiafizika és a molekuláris biológia, az jellemző, hogy az adatokat keletkezésük után nem sokkal hozzáférhetővé teszik, a publikációk az adatforrásokat vagy a publikációkhoz tartozó adatokat egy központi adatbázisban vagy a publikációhoz csatolva bocsátják rendelkezésre. CODATA (Committee on Data for Science), amely a International Council for Science (ICSU) alszervezete, illetve a minőségmenedzsment és a tudományos adatok cseréjének nemzetközi szervezete, a 2002-ben megjelent Principles for Dissemination of Scientific Data elveiben az adatok nyílt hozzáférését támogatja. Az OECD (Gazdasági Együttműködési és Fejlesztési Szervezet) bizottsága, a Committee for Scientific and Technological Policy (CSTP) támogatja a jogi és gazdasági érdekek figyelembevételével a kutatási eredmények nyílt hozzáférését a Declaration on Access to Research Data from Public Funding nyilatkozatában. A National Institutes of Health (NIH) az 500.000 dollárt meghaladó támogatások odaítélését az adatmegosztás kötelezettségéhez kötik. A Welcome Trust a kutatási adatok nyílt hozzáféréséhez egy nyilatkozatot készít elő. A Helmholtz Gesellschaft stratégiája és munkaterve tartalmazza az elsődleges tudományos adatok tárolását a társaság adatcentrumában. A Deutsche Forschungsgemeinschaft (DFG) kötelezi a projektben résztvevőket az adatok archiválására legalább öt éves időtartamra.
Adatok megjelenítésének követelményei
A tudományos publikációkhoz hasonlóan az adatok hosszú távú elérésének biztosításáért a következő követelményeknek megfelelően kell az adatokat tárolni:
• Hosszú távú elérhetőség biztosítása hosszú távon elérhető azonosítókkal (Persistent Identifiers). A kedvelt azonosító a DOI. Németországban a tudományos nyersadatok DOI-ügynöksége a Technische Informationsbibliothek Hannover (TIB), akik világszerte elsőként vették igénybe ezt a szolgáltatást;
• Az adatok, illetve adatgyűjtemények leírása (metaadat-meghatározás). Ez nagyon lényeges az adatok megjelenésekor, de függetlenül tárolódnak a hozzátartozó publikációtól pl. adatcentrumokban. A leírás az ISO-szabvány és a szakterületi leíráselemek (pl. a kémiában IUPAC Chemical Identifier) alapján történik. A Small Science adatainak önarchiválásakor egyszerűbb sémák is használhatók, mint a Dublin Core
• A forrásadatok és licencfeltételek rögzítése az adatfájlokban (pl. egységesen titkosított azonosítókkal)
A CODATA német szekció kezdeményezésére a DFG 2003-2005 között támogatta a Publikálás és primer tudományos adatok idézhetősége projektet, amelyben a TIB mellett a négy német, a földtudományokban tevékenykedő World Data Centrum is részt vett.
Jogi kérdések
Ezen a területen specifikus jogi problémák és követelmények is fenn állnak. Ahhoz, hogy biztosítani lehessen az (adat) szerzők jogait, ezen a területen is ajánlott a Creative-Commons-licenszrendszer. Egy olcsóbb – de nehezebben megvalósítható és jóváhagyható – lehetőség az, ha az adatok utóhasználói ugyanolyan licensszel publikálnak, mint a jogelőd. Ez sok esetben megköveteli a „fair use” elvét, amely a szerzők számára az adatok megjelenésekor egy meghatározott időre exkluzív használati jogot biztosít. Mivel a Creative-Commons-licenszrendszer több szemponttól sem veszi figyelembe az összetettséget és az adatlicenszek konkuráló érdekeit, kilenc nemzetközi szervezet, többek között a CODATA, ICSU, WDC (World Data Center) és OECD 2002 végén elindították a „Global Information Commons for Science” kezdeményezést, amely mostanára már 30 taggal (egyetemek, kiadók – a Public Library of Science) bővült.
Az adatok nyílt hozzáférését egy Eu-törvény is akadályozza, amely szerint az EU-országok adattermésére, függetlenül attól, hogy rendelkezik-e szerzői jogvédelemmel vagy nem, szerzői jogi védelmet sui generis határoz meg, ezért ezek az adatok (legalábbis az EU-országokban) nem használhatók a szerzői jogtulajdonos engedélye nélkül. A német szövetségi minisztériumok és hivatalok által használt adatok nyílt hozzáférését az akadályozza, hogy az adattermelő intézetek (mérési hivatalok, német adatcentrumok, Német Időjárásjelentés) részben az adataik eladásából finanszírozzák működésüket.
Infrastruktúra
Az adatok nyílt hozzáférésének támogatása a széles körű kutatás miatt megfelelő infrastruktúrát kíván meg. A megfelelő adatcentrumok kiépítéséért támogatási intézetek, egyetemek és nyilvános kutatási intézetek felelősek, illetve illetékesek. A felelősségi körükbe tartozik a megfelelő adatok és információk kiválasztására, hozzáférésére és használatára vonatkozó irányelvek (Policies) megfogalmazása.
Az adatok nyílt hozzáférésének együttműködő és szakterületi kezdeményezései
Az adatok nyílt hozzáférésének jelenleg domináló tevékenységei és szervezeti formái általában szakterületre vonatkoznak. Alábbi osztályokat lehet megkülönböztetni:
• Nyílt adatcentrumok és archívumok (pl. GenBank, Protein Data Bank, Digital Sky Survey)
• Virtuális obszervatóriumok (pl. International Virtual Observatory for Astronomy, Digital Earth)
• Osztott nyílt adathálozatok (pl. World Data Centres [WDCs], Global Diversity Information Facility, NASA Distributed Active Archive Centers). Az összesen 52 World Data Center-ből 4 Németországban található, amelyek „Earth System Science” csoportba álltak össze.
Adatok nyílt hozzáférésnek jövőbeli kilátásai és akadályozásának okai
Az adatok nyílt hozzáférésnek akadályozási okai többfélék:
• Míg a Big Science berendezései és programjai nagyrészt megfelelő adat-repozitóriumokkal rendelkeznek, az adatmegosztás területi lefedéséhez hiányzik a megfelelő infrastruktúra (pl. megfelelő adatbázisok). Esetleg összekapcsolható lenne a DFG-projekt Publikációk és tudományos elsődleges adatok hivatkozása tevékenységekkel.
• Az adat-szerzők attól tartanak, hogy adataikat a források feltüntetése nélkül használják más kutatók vagy az értékesítési jogaikban korlátozzák őket, lásd ehhez a jogi aspektusokat.
• Az adatok előkészítésének és rendelkezésre bocsátásának folyamatai a jelenlegi tudományos rendszerben nincsenek elismerve és az időigény miatt inkább hátrányosan érintik a tudományos karriert. Ahhoz, hogy a szerzők nyíltan elérhetővé tegyék adataikat, azzal kell őket motiválni, hogy az adatok rendelkezésre bocsátása egyben önálló meghivatkozható megjelenést és tudományos tevékenységet jelent.
Az adat megosztás – főleg az Open Data Sharing – a kutatás minden területén, amelyben az adatokat használják vagy ahonnan nyerik őket, új együttműködői potenciált jelent és emiatt a kutatás és tudományos támogatás aktív területe.
Az adatok nyílt hozzáféréséről további információ a Helmholtz-Gemeinschaft honlapján találhatók.
