Ma több információval vagyunk körülvéve, mint valaha, ez pedig nem másnak köszönhető, mint a Big Data zavaros jelenségének. A Wired magazinban megjelent cikk szerint a Big Data-val a kutatók ipari szintre emelik az információk közül való „szemezgetést”. Így a nem valódi összefüggések száma hatványozottan növekszik, sokkal gyorsabban, mint a valósaké – véli a cikk.
Más szóval: a Big Data talán több információt kínál, de ez egyben több hamis információt is jelent.
Gondoljunk egy olyan képzeletbeli bankárra, akinek szabad választási lehetősége van abban, hogy hol termel profitot, és hol hárítja át a veszteséget másokra. Hasonlóképpen egy olyan piackutatóra, akinek lehetősége nyílik eldönteni, mely statisztika erősíti meg nézeteit (vagy mutat szép számokat), a többit pedig sutba dobhatja.
A Big Data kutatóinak lehetősége nyílik arra, hogy a megfelelő eredmény elérése esetén a kutatást menet közben is abbahagyják. A kutató így kikezdhetetlenné válik, képes lesz arra, hogy bonyolult és bizonytalan adatokból eredményt varázsoljon – mások költségére.
Mindezek mögött a Big Data azt is jelenti, hogy mindenki szembetalálkozhat hamis adatokkal, hiszen azok a felszínig hatolnak. Mindez amiatt van, mert a nagy adathalmazokban a nagy eltérések sokkal inkább tulajdoníthatók a szórásnak (vagy zajnak), mint információnak (vagy jelnek). A dolog lényege a mintavételben keresendő: a való életben nincs lehetőség a szemezgetésre az adatok között, a piackutató számítógépén viszont van. A nagy eltérések ugyanakkor nagy valószínűséggel hamisak.
Általában védekezünk az ilyen jelenségek ellen, a Big Data azonban még inkább felerősítette a hamis adatok nyújtotta kísértést. Egyre kevesebb és kevesebb olyan kutatás van, melyek eredményei ugyanazt mutatnák – az ismétlődő jelleggel lefolytatott kutatásokhoz nem csak támogatást nehéz szerezni, de még csak dicsőséggel sem járnak. A magas szintű ismereteink ellenére ma alig-alig találni valóban statisztika-orientált vagy empirikus tanulmányt.
A Big Data másik nagy problémáját úgy érthetjük meg, ha a való élet és a könyvtárak közötti lényegi különbségekre gondolunk. Az óriási adathalmaz miatt az a személy, aki mondjuk egy könyvtár információ-tengere által biztosított helyzeti előnyből néz vissza a történelemre, szükségszerűen még több hamis összefüggést fedez majd fel, mint az, aki a folyamatot az adott időben megélve kereste azokat; az epiphenomena jelensége sokakat becsaphat. Még a kísérletek is tele lehetnek hamis információkkal, különösen, ha a kutatók megpróbálják elfedni azokat, vagy hipotézisekkel próbálják alátámasztani az eredményeket.
Ez nem más, mint a Big Data módszer tragédiája: minél több a változó, annál több köztük az olyan korreláció, mely látszólag szignifikánsnak tűnik. A fals információ (zaj) mindig gyorsabban terjed az igaznál, kikezdhetetlen, kiirthatatlan.
A Big Data-val kapcsolatos probléma egyébiránt hasonlatos az orvosi kutatásokban végzett megfigyeléses kísérletek problémáihoz. A megfigyelésen alapuló vizsgálatok esetében a statisztikai összefüggéseket a számítógépek összesítik. Az utánuk következő kettős vaktesztek során azonban az információ kinyerése már a való életet modellezi le. A megfigyeléses módszerek tízből több, mint nyolc esetben vezetnek hamis eredményekhez, ahogy azt John Ioannidis is igazolta.
A Big Data arra világít rá, ami hibás, nem arra, ami helyes.
Ha már a genetika szóba került, vajon miért nem értünk el további eredményeket (miért nem fedeztünk fel további összefüggéseket) az emberi genom megfejtése (2003) óta eltelt tíz évben?
Ha (tegyük fel) egy 200 variánsból álló halmazom van – tele teljesen random, egymással semmilyen kapcsolatban nem álló adatokkal – és mindegyikhez körülbelül 1000 adatpontom, akkor szinte lehetetlen, hogy ne találjak meg bizonyos számú "szignifikáns" összefüggést az adatok között. Ezek az összefüggések azonban mind hamisak lesznek. Persze vannak technikák, melyekkel irányítható az adatokból való szemezgetés (ilyen például a Bonferroni teszt), azonban ezek se csípik nyakon a bűnöst – pont, ahogy a szabályozás se védi meg a rendszereket azok kijátszásától. A kutatókat nem lehet szabályok közé szorítani, különösen akkor nem, ha független ügynökségek munkatársairól beszélünk, akik csupán az interneten rendelkezésre álló óriási adathalmazzal játszadoznak.
Senki nem állítja, hogy a Big Data nem tartalmaz valós információt. Dehogynem. A gond – a fő gond – az, hogy ezúttal többről van szó, mint tű kereséséről a szénakazalban.
(Piackutatás blog)