Big data sorozat (3. rész) - Szkepticizmus

2013.01.10. 17:20 Forecast Research - www.forecast.hu

Kétség sem fér hozzá, hogy a big data óriási hatással lesz számos területre, így a piackutatásra is, a blog olvasóinak azonban tudniuk kell, hogy sok piackutató egyelőre szkeptikus annak gyakorlati használhatóságát illetően.

Nézzük két – nemzetközi szinten is mérvadó – piackutató blogger véleményét e kérdésben!

Szkepticizmus 1. – Nigel Hollis (MillwardBrown)

Nigel Hollis (MillwardBrown) figyelmét – sokakhoz hasonlóan – a Harvard Business Review (HBR) blogban közölt cikk keltette fel (Big Data Hype (and Reality)), melyben Gregory Piatetsky-Shapiro érdekes példákkal igazolja ezt a szkepticizmust. Így például a Netflix esetét említi, ahol a big data elemzés kudarcot vallott a fogyasztói preferenciák előrejelzésében. Talán sokan emlékeznek a Netflix ajánlatára, amely 1 millió dolláros jutalmat ajánlott fel annak, aki 10%-kal képes megnövelni az ajánlások hatékonyságát a meglévő algoritmus segítségével. Három évig tartott, míg meglelték a győztes csapatot, az előrejelzés folyamata pedig olyan összetett feladatnak bizonyult, hogy azt a Netflix nem is folytatta.

Nigel Hollis felteszi a kérdést: hol lehet tehát a legnagyobb befolyása a big datának a szakemberek szerint? Ő is úgy véli, hogy nem máshol, mint a mesterséges intelligenciában. A hivatkozott HBR cikkben Piatetsky az IBM Watson-ját és az Apple Siri-jét említi példaként. Piatetsky-Shapiro az egészségügyet és a helymeghatározáson (geolokáción) alapuló elemzési módszereket említi még meg, ahol a big data fontos lehet. Úgy véli, a közösségi médiás eszközök sikere – Facebook, Twitter, LinkedIn – az általuk lefedett tömeg nagyságán múlik, a big data eszközei pedig közreműködhetnek ezeknek a tömeges adatoknak az elemzésében.

A kutató szerint a spontaneitás olyan tényezője az emberi viselkedésnek, ami behatárolja a lehetőségeket a fogyasztói viselkedés modellezése terén. Piatetsky gondolatát idézi:

A big data hozhat ugyan marginális nyereségeket, az áttörés azonban mindaddig nehezen elérthető marad, amíg az emberi viselkedés ennyire következetlen, impulzív, dinamikus és szövevényes.

Az adott emberi viselkedés oka nem mindig nyilvánvaló, és ahelyett, hogy rákérdeznénk, mit, miért csinál valaki, a piackutatók értelmezéseire hagyatkozunk. Nigel Hollis szerint a big data és a hagyományos módszerek ötvözésére van szükség.

A hagyományos kérdőívek óriási előnye, hogy felvetnek olyan válaszlehetőségeket, amik az adott válaszadónak tán eszébe sem jutna, a kutatás szempontjából azonban kulcsfontosságúak lehetnek.

Szkepticizmus 2. – Ray Poynter (Vision Critical)

Szingapúrban az MRSS Asia Research konferencián az idei téma a big data volt. Számos érdekes prezentációt bemutattak, a neuroscience-ről, a viselkedés-gazdaságtanról vagy az etnográfiáról – big data szemüvegen keresztül nézve.

Volt egy forrás, amit referenciaként sokan megjelöltek előadásukban, ez pedig az IBM 4V elmélete: Volume, Velocity, Variety, Veracity (terjedelem, gyorsaság, sokszínűség, valódiság). A terjedelem adott, hiszen big data-ról beszélünk. A második V azt jelzi, az emberek milyen gyorsan akarnak hozzájutni az adott információhoz. A sokszínűség arra emlékeztet minket, hogy a big data egy szervezetlen adattenger, tele fotókkal, videókkal, nyílt végű válaszokkal. A valódiság pedig azt jelzi, hogy az adott információ korrekt és megbízható-e.

A prezentációkat hallgattva Ray Poynter figyelme egy francia matematikus, Peirre-Simon Laplace felé irányult. Laplace 1814-ben kifejtette nézetét, miszerint ha valaki tudatában lenne az összes atom pozíciójának és mozgásának, úgy azok jövőbeli pozícióját előre ki lehetne találni – ez a fajta gondolkodásmód a determinizmus. Laplace elmélete később megbukott, először a termodinamika, majd a kvantummechanika szabályai döntötték meg azt.

A big data módszert övező feltételezések hasonlatosak Laplace determinista gondolataihoz, pl. ’ha elég adat áll rendelkezésünkre, előre jelezhetjük a jövőt.’ Ennek egyenes következményeként, ’ha még több adatunk van, még pontosabb előrejelzéseket tehetünk.’ Pedig ezek egyike sem igaz szükségszerűen.

Ray Poynter szerint számos kulcstényező van, ami befolyásolja a big data-ban rejlő potenciált:

A big data csak azt méri, ami meghatározott körülmények között történt. A matematikusok gyakran használják az interpoláció módszerét annak érdekében, hogy megbízható eredményt kapjanak (az értelmezési tartományon belüli értékek becslése). Ezzel szemben az extrapoláció (kikövetkeztetés) vagyis valaminek az előre jelzése mindig nehéz és problematikus. (Ilyenkor a a már valamennyire ismert értelmezési tartományon kívül eső szakaszokra adunk közelítést.)
Ha egy inputhoz random vagy nem releváns adatokat kötünk, akkor az kevésbé egyértelművé válik. A megfelelő működéshez el kell távolítani ezeket a spontán, irreleváns adatokat. Ha például vásárlási adatokat gyűjtünk, és ennek során minden lehetséges adatot összeszedünk, akkor azt csak úgy értelmezhetjük, ha az irreleváns dolgoktól megszabadulunk – a nagyobb tehát nem feltétlenül jobb.
Ha az összegyűjtött adatok egymással mind korrelációban vannak (multikollineárisak), akkor a legtöbb matematikai elemző módszer nem lesz sikeres – instabil előrejelzések születnek így.
Néhány viselkedésmotívum meglehetősen kaotikus. Ha változtatunk az inputon, akkor változni fog az output – azonban előre nem jelezhető módon.

Az egyik legsikeresebb a big data technikában kétségkívül a TESCO. A vállalat közel 20 éven keresztül nehezítette meg versenytársai és beszállítói dolgát a Clubcard programból származó adatok hasznosításának mikéntjével. A Clive Humby és Terry Hunt által írt, Tesco-ról szóló könyv (Scoring Points) részletezi, hogy a Tesco sikerének elsődleges titka az volt, hogy a fentebb említett 4 pontnak megfelelően dolgoztak.

A Tesco egyszerűsítette az adatokat, eltüntette a zavaró tényezőket, kategorizálta a vásárlókat, a kosarakat, a nap egyes időszakait. A technikáik interpoláción alapulnak (nem pedig extrapoláción), és képessé teszik őket arra, hogy hibákon, megpróbáltatásokon keresztülmenve újat tanuljanak. A big data egyre fontosabb és fontosabb lesz a jövőben a piackutatói szakma számára. Használhatóságát tekintve azonban jobb, ha nem értékeljük túl. A több nem szükségszerűen jelent jobbat. Tudni azt, mit tettek az emberek a múltban, nem feltétlenül árulja el, mit tesznek majd a jövőben. Tudni azt, mit tettek az emberek a múltban, nem árulja el azt, miért tették azt, és megtennék-e azt újra.

Ray Poynter szerint a big data által rabul ejtett kutatóknak nem szabad elfeledkezniük Laplace-ről és arról, hogy világunk nem determinista.

(Piackutatás blog)

A témában korábban megjelent írás a Piackutatás Hírek oldalon:

Big data: Az adatok ébredése, avagy a társadalom újragondolása az adatsokaság nyomán

A témában korábban megjelent írások a Piackutatás blogon:

Mit jelent és mire jó a ’Big data’?

Big data sorozat (1. rész) – Hype és valóság

Big data sorozat (2. rész) - Újratöltve

Facebook Tumblr Tweet Pinterest Tetszik

Szólj hozzá!

Címkék: statisztika adatbázis adat piackutatás adatbányászat big data

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

Piackutatás blog

"Ne szóljatok anyámnak, hogy piackutató vagyok. Azt hiszi, utcaseprőként dolgozom."

HTML

Piackutatás.blog.hu

Piackutatás Hírek

Ajánló

Linkajánló

Utolsó cikkek

Tagek - Főbb témakörök

Archívum

Egyéb

Creative Commons licenc

Feedek