A ’Big data’ módszerben rejlő lehetőség óriási visszhangot kapott mostanában. A lelkes fogadtatás mellett azonban a módszert bíráló, a felfokozott várakozásokat lehűteni igyekvő hangok is megszólaltak, nem csupán a Harvard Business Review-ban, de más újságokban, weboldalakon, blogokban is. A téma iránti növekvő érdeklődés mindenesetre számtalan cikket, megbeszélést és konferencia előadást inspirált. A sorozat első részében az óvatosságra intő véleményeket tekintjük át.
...ami azonban a ’big data = nagy befolyás’ állítást illeti, az elemzők valószínűleg tévednek. A legtöbb adatbányász és adatelemző alkalmazás valójában az előrejelzés módszerére épít. A döntéshozók érdeke, hogy megértsék azokat a motívumokat, amik a múltban és a jelenben vásárláshoz vezettek/vezetnek, hogy ennek tudatában megjósolhassák a jövőt. A big data példa nélküli lehetőséget kínál – különösen a fogyasztói cselekvéseket, attitűdöket tekintve – vajon az előrejelzések terén hoz-e fejlődést? Nézzük a témát picit mélyebben, megfigyelve három olyan kulcsterületet, ahol a sikeres előrejelzés alapvető fontosságú.
Filmek értékelése. Olyan vállalatként, amely a fogyasztás növelésére összpontosít, a Netflix rutinosnak számít a személyes filmajánlók kiküldésében fogyasztói számára a már megtekintett filmek alapján, egyfajta visszajelzésként. Az előrejelzés igazi kihívás ezen a területen, ha valaki egy adott mozifilmnek egy bizonyos osztályzatot adott, akkor vajon a másik filmet is ebbe a kategóriába fog sorolni az értékelés során? A vállalat öt éve hirdette meg híres-neves versenyét (competition) a Cinematch algoritmusának fejlesztése érdekében. A program rekordnagyságú adatbázissal (2007-ben), 480 ezer anonim felhasználóval, 17 770 filmmel és 1-től 5-ig tartó értékelési skálával rendelkezett. A versenyt megelőzően a Netflix saját algoritmusának hibája 0.95 volt (négyzetes hiba, RMSE) ami azt jelentette, hogy előrejelzési képességei meglehetősen gyengék voltak. A Netflix 1 millió dolláros díját az nyerte volna, aki képes lett volna ezt a hibát nagyjából 10%-al csökkenteni, legalább 0.86-ra.
Mindössze két héten belül számos jelentkező javított ugyan a Netflix algoritmusán, azonban csak meglehetősen kis mértékben, így a fejlődés lassú léptekben haladt. (Lásd a táblázatot).
Három évbe tellett a győztes megtalálása, akik nem más, mint a BellKor's Pragmatic Chaos csapata, eredményük pedig 0.8567 RMSE lett. A győztes algoritmus különböző megközelítések összességéből jött létre – olyan bonyolult lett a végeredmény, hogy a Netflix azt végül sosem használta. A világ legjobb adatbányász szakembereinek hároméves munkájának a gyümölcse: az arra vonatkozó átlagos előrejelzési mutatót, miszerint hogyan fognak a nézők egy filmet értékelni, kevesebb, mint 0.1 csillaggal sikerült javítani, pontosítani. (A Netflix rendszerében csillagokkal lehet értékelni a filmeket.)
Ügyfél lemorzsolódás. Amennyiben az előrejelző módszerek big data-val kiegészülve képesek lennének pontosan megmondani, kik azok, akik el akarják hagyni az adott terméket vagy szolgáltatást, a direkt marketingre költött dollárok hatékony bevetésére lenne lehetőség oly módon, hogy ezeknek a fogyasztóknak kedvezményeket, egyéb előnyöket biztosítunk. Az elemzők oly módon állapítják meg ezeknek az elpártoló fogyasztóknak a számát, hogy az ún. ’lift’ módszert alkalmazzák (lift=speciális adatbányász módszer). Tegyük fel, hogy egy vezeték nélküli kommunikációs szolgáltatásokat kínáló vállalatnak havonta 2% elpártoló fogyasztója van. Ha egy algoritmus segítségével megállapítjuk az elpártolás indítékait, és készítünk egy listát azokról a fogyasztókról, akik hajlamosak lehetnek az elpártolásra, ezeknek pedig 8%-a valóban rendszeresen elpártol, így ez a lista 4-es ’lift’-nek felel meg. (mivel a módszer négyszer több „disszidálót”hozott, mint egy véletlenszerű mintavételen alapuló). Egy ilyen lista rendkívül hasznos lenne, tekintve a marketing költségek megtakarításának lehetőségét. Mégis, a dolog 92%-ban hibás eredményt ad. A big data tehát hasznos lehet-e abban, hogy hatékonyabb előrejelzési megoldásokat fejlesszük?
A bank és a telekommunikációs szektor harmic különféle elpártolási módját vizsgálták meg és meglepő módon – bár különböző adathalmazokat és algoritmusokat használtak – hasonló eredmények születtek. A top 1% elpártolóinak 9-11-es liftje volt, míg a top 10-ben szereplőké 3-4. Nagyon hasonló eredményeket mutattak más tanulmányok is. (tanulmány 1. , tanulmány 2.). Mindez azt jelzi, hogy az előrejelzés meglehetősen pontatlan módszer az elpártolás megfigyelése esetében.
Internetes reklámokra való reagálás. Végül, de nem utolsósorban nézzük a CTR (%) mutatót (azaz kattintási hajlandóság) online reklámok esetében. Kulcsterületről van szó. A reklámokra való keresést nem célszerű figyelembe venni, a reklámok úgyis mindig a felhasználói szándéktól függenek, így csak a reklámok megtekintésére reagáljunk.
Az átlagos kattintási szám 0.1-0,2 % szokott lenni (tanulmány). A viselkedésre koncentráló vagy a célközönségnek szóló reklámok persze jobb mutatókat érnek el, legalább az előbb említett érték hétszeresét a kutatók szerint (tanulmány). A hétszeres növekedés azonban még mindig csak 1.4%-ot jelent – mindez azt jelenti, hogy napjainkban a legjobb, célközönségnek szóló reklám sem jut el a fogyasztók 98.6%-ához!
Milyen következtetéseket vonhatunk le e három terület tanulmányozása után? Mindhárom problémakörre okos, motivált szakemberek keresnek válaszokat. A végkövetkeztetés egyértelmű: a spontaneitás olyan tényezője az emberi viselkedésnek, ami behatárolja a lehetőségeket a fogyasztói viselkedés modellezése terén. A big data hozhat ugyan marginális nyereségeket, az áttörés azonban mindaddig nehezen elérthető marad, amíg az emberi viselkedés ennyire következetlen, impulzív, dinamikus és szövevényes.
Az olyan cselekvések, melyek a fizika törvényszerűségei szerint működnek – mint például a gravitáció – jó eséllyel pontosan jelezhetőek előre. Gondoljunk csak azokra az előrejelzésekre, melyek a NASA Curiosity nevű űrsiklójának fantasztikus landolását segítették elő, és mindössze 1,5 mérföldet tévedtek – 350 millió mérföldes út megtétele után. Amikor azonban a cselekvést a fogyasztói szeszély irányítja, nincs az a találékony módszer, ami pontosan előrejelzi, mi fog történni. Az elemzők meg tudják mondani, hogyan landoljon egy űrsikló a Marson, de képtelenek megjósolni, ki fog megvenni egy Mars csokoládét.
A big data módszernek köszönhetően fejlődhetnek az előrejelzések, de a legnagyobb ereje abban lesz, hogy új kutatási területeket hoz létre. A Google-t tekinthetjük is a big data első ismert sikerének, annak növekedése rámutat arra, mekkora érték rejlik a módszerben. Bár az analitika csak kis része lehet a teljes algoritmusnak, a Google képessége a kereséseken alapuló célzott hirdetések megjelentetésére a cég bevételének 95%-áért felelős. A közösségi hálók szintén a big data függvényében tudnak majd fejlődni, bővülni. A Facebook, a Twitter vagy a LinkedIn sikere is az általuk lefedett tömegeken múlik, ezen tömegek adatainak elemzésében a big data módszer fontos lesz.
A big data hatása lehet egyenese transzformatív (átalakító) is. A geolokális elemző módszerekre és szolgáltatásokra, mint pl. a Foursquare gondolhatunk. Vagy az egészségügyre, ahol a big data a személyre szabott orvoslás kialakításában (drive progress) kaphat jelentős szerepet.
Végül, de nem utolsósorban, a big data legnagyobb lehetőségei a mesterséges intelligenciában rejlenek. Az IBM által fejlesztett Watson (IBM Watson) legyőzte a humán résztvevőket a Jeopardy nevű játékban. Az Apple által kitalált Siri emberek millióival társalog, több-kevesebb sikerrel. A Google is közelebb kerül a mesterséges intelligenciához a Knowledge Graph segítségével. A Siri vetélytársaként ismert Google Now a felhasználók viselkedéséből állapítja meg azok kéréseit, kívánságait. Ezek a programok 2020-ra sokkal működőképesebbek lesznek a big data módszer alkalmazásának köszönhetően.
Összegezve: a big data valóban nagy változásokat hozhat. Biztosak lehetünk benne, hogy a módszer segíteni fogja a gépek és a szervezetlen, örökké változó, zavaros emberi viselkedés közötti interakciót. Ha azonban azt várjuk, hogy az emberi viselkedés is megjósolhatóbb, előre láthatóbb lesz, akkor csalódni fogunk.
(Internet/Piackutatás blog)
A témában korábban megjelent írás a Piackutatás Hírek oldalon:
Big data: Az adatok ébredése, avagy a társadalom újragondolása az adatsokaság nyomán
A témában korábban megjelent írás a Piackutatás blogon:
Rabbit · http://rabbitblog.hu 2012.12.21. 19:36:26
arra viszont hadd hívjam fel a figyelmedet, hogy a kattintás nem fokmérője a kampányok hatékonyságának, és az, hogy alacsonyak az átkattintási arányok, nem jelenti azt, hogy "a legjobb, célközönségnek szóló reklám sem jut el a fogyasztók 98.6%-ához".
ajánlom figyelmedbe: rabbitblog.hu/2012/12/03/meg-mindig-itt-tartunk-admonitor-az-display-piacrul/
Forecast Research - www.forecast.hu · http://piackutatas.blog.hu 2012.12.22. 10:17:45