Big Data, Mid Data, Small Data

2014.03.21. 13:07 Forecast Research - www.forecast.hu

„Az American Marketing Association Big Data-val kapcsolatos konferenciája után még inkább meg vagyok győződve arról, amit már korábban is gyanítottam, amikor az utóbbi években a Fortune 1000-be tartozó cégek vezetőivel tárgyaltam. Igen kevesen járnak még csak a közelében is annak, ami a Big Data lényege lenne – szerintem mondjuk nincs is szükségük erre – arról azonban el kellene gondolkodniuk, mit kezdenek az ún. Mid Data-val!” – írja blogjában Tom HC Anderson, piackutató sztárblogger és megmondóember. Lehet, hogy a piackutatók is jobban tennék, ha a Big Data helyett a Mid Data-ra koncentrálnának?

Big Data így, Big Data úgy. Úgy tűnik, mintha mindenki erről beszélne manapság, mégis igen kevés piackutató foglalkozik valóban a témával. Vajon kell-e egyáltalán foglalkozni vele?

Aki ezt a cikket olvassa, az jó eséllyel piackutató vagy üzleti elemző, aki fogyasztói insight-okkal vagy valamilyen kapcsolódó területtel foglalkozik. Nagyon itt lenne az ideje, hogy leszűkítsük a Big Data definícióját és bemutassuk a sokkal reálisabb képet adó, jóval jelentősebb Mid Data fogalmát, ami valójában jellemzi, miből is indult ki a Big Data.

Az új fogalom magyarázatának csak úgy van értelme, ha a Big Data-n és a Mid Data-n kívül eső adatokra is kreálunk egy új fogalmat, ez lesz az ún. Small Data.

Small Data

A Small Data magában foglalhat bármit az egyéni interjúktól kezdve a kvalitatív kutatásokon vagy a néhány ezer fős kérdőíves megkérdezésen alapuló kvantitatív, longitudinális tanulmányokig. Ilyen mértékű adatmennyiség esetén a kvalitatív és a kvantitatív adatok még simán értelmezhetőek együtt, hiszen nem esnek bele az általánosságban meghatározott (és bevallottan laza) Big Data kategóriába. Láthatjuk, hogy egy bizonyos méret (mintanagyság) helyett a Big Data jelenlegi definícióját a szóban forgó szervezet képességeivel összefüggésben lehet megválaszolni. Általánosságban Big Data-nak az értékelhető, amit a hagyományosan igénybe vett szoftverek segítségével lehetetlenség kiértékelni.

Képzelhetjük, hogy ez a definíció bizony egy IT szakember vagy egy hardverekkel kereskedő álma, hiszen a szituáció lényege az, hogy az adott cégnek nem állnak rendelkezésre az adatelemzéshez szükségek eszközök, a megoldás pedig az, hogy többet, jóval többet kell infrastruktúrára költenie.

Mid Data

Mi is a Mid Data? A Big Data fogalom kialakulásánál azok az adathalmazok, melyeket most Small Data-nak hívunk, könnyen válhattak volna Big Data-vá is. Például egy 30,000–50,000 adatmezőt tartalmazó, fogyasztói elégedettséget felmérő kutatás eredménye néha sikeresen, gond nélkül elemezhető olyan elérhető, népszerű elemző szoftverekkel, mint például az SPSS. Ha azonban ehhez az adathalmazhoz már a fogyasztói kommenteket (nyílt kérdéseket) is hozzávesszük, a feldolgozás folyamata jelentősen lassulhat, túl hosszúra nyúlhat vagy komoly nehézségekbe ütközhet.

A nyílt kérdésekre adott fogyasztói válaszokkal együtt az eredeti adatbázis nagyméretű növekedésen mehet keresztül. Ekkorra Big Data-ról beszélünk, amihez sokkal hatékonyabb szoftveres megoldásra lenne szükség. Ebben az esetben szerencsésebb a Mid Data fogalom bevezetése, hiszen itt még csak alakuló Big Data-ról beszélünk, és az ilyen méretű adatbázis kezelésére több elérhető áru szoftver is kínálkozik.

Big Data

Most, hogy kiharaptunk egy darabot a Big Data-ból és Mid Data-nak neveztük el, itt az ideje, hogy újradefiniáljuk a Big Data-t, de legalábbis elhatároljuk egymástól a Mid Data-t és a „valódi” Big Data-t.

A Big Data és a Mid Data közötti különbségek megállapításához tisztáznunk kell azok dimenzióit. A Gartner elemzője, Doug Laney híres-hírhedt mondata volt, miszerint a Big Data háromdimenziós, ami azt jelenti, hogy folyamatosan növekedő terjedelme, változatossága és terjedési sebessége van, ez az ún. 3V modell (van ún. 4V modell is).

A különbségek tisztázásához azonban mindössze két változót, a költséget és a hozzáadott értéket kell figyelembe venni. A megtérülést (ROI) csak a ráfordított költségben (akár idő, akár pénzköltség) és az elvárt értékben lehet mérni. Mindez a Big Data elemzési módszer gyakorlatisságát is jelzi.

Bár tudjuk, hogy bizonyos adatok eredendően értékesebbek más adatoknál (100 emailben érkezett ügyfélpanasz például jóval többet ér, mint 1000 véletlenszerű Twitter-bejegyzés az adott kategóriában), egy dolog azonban biztos. A nem kielemzett adat értéke egyenlő a nullával.

A Mid Data-val ellentétben a Big Data, a „valódi” Big Data már pontosan az a kategóriája az elemzésnek, ami – a befektetett időt és pénzt nézve (amikor a befektetett erőforrásokkal nem arányos mértékű insigh-ok születnek) – esetleg nem éri meg, nincs értelme. A Mid Data intervallumán kívül eső elemzések sokszor elméletben és gyakorlatban is kivitelezhetetlenek a cégek számára.

Másrészről viszont a Mid Data lehet a mézes bödön a Big Data számára. Az ilyen elemzés lehetséges, értékkel bíró és belefér a költségekbe.

Mi legyen?

A Mid Data jelenti a szakma számára kínálkozó jelenlegi legnagyobb lehetőségeket. A valós, könnyen elérhető insight-okat itt lehet learatni.

A „valódi” Big Data viszont lehet, hogy már túl van azon a ponton, hogy megtérülő befektetés lenne. „Valódi” Big Data projekten dolgozó szakemberek tevékenykednek például a híres Large Hedron Collider projekten (CERN). (Ellentétben ezzel a projekttel, a fogyasztási cikkeket gyártó cégek jelentős része jelenleg még nem hajlandó semmilyen szoftver-, vagy hardverbefektetésre a Big Data elemzése céljából.) A Collider esetében az adatok nagyságrendje (150 milliónyi szenzor másodpercenként 40 milliós adatforgalmat bonyolít) miatt az elemzés nem megvalósítható, de erre nincs is szükség. Sőt, a CERN szakemberei egyáltalán nem is elemzik ki ezt a típusú Big Data-t. Helyette kiszűrik az ütközési pontok 99.999 %-át, és csak arra a másodpercenkénti 100 ütközésre koncentrálnak, ami érdekes, lényeges a számukra.

A szakma képviselői számára az a jó hír, hogy amennyiben őszinték vagyunk fogyasztóinkkal, úgy a megértésük nem különösebben bonyolult. Ma már kiváló, elérhető árú Mid Data szoftverek kaphatóak mind szöveg-, mind adatbányászatra – ezek a módszerek már nem igényelnek exabyte méretű adathalmazt vagy szerverek ezrein párhuzamosan futó szoftvereket. Bár a magazinok vagy a konferenciák felszólalói szeretnek az Amazon, a Google vagy a Facebook példájára hivatkozni, még ezek a viszonylag ritka példák is kész sci-fi-nek tűnnek az idegenek számára, és nem részletezik például a szóban forgó vállalatoknál megszokott mintagyűjtési módszereket.

Amint a CERN egyik szakembere rámutatott, sokkal lényegesebb a fontos (az érdeklődésnek megfelelő) adatok elemzése, mint a teljes adathalmaz meghódítása.

Ennél a pontnál néhányan csodálkozhatnak, hogyha a Mid Data valóban ennyivel jobb, mint a Big Data, akkor nem lehet, hogy a Small Data jobb mindkettőnél?

A különbséget nyilvánvalóan az adja, hogy az adatok növekedésével nem csak megbízhatóbb eredményekre van kilátás, de olyan összefüggéseket, motívumokat is felfedezhetünk, amely egy hagyományosan kicsi adathalmazban nem tűnnek fel. A piackutatás világában e különbség azt jelentheti, hogy az adott cég felfedez egy új niche termékötletet, vagy éppen rögvest reagál a riválisa lépésére. Gyógyászati körökben ez azt jelentheti, hogy összefüggést fedeznek fel egy kis népességű populációs alcsoport és a rák kialakulásának magasabb kockázata között, életeket mentve ezzel!

A további definíciók és gyakorlati megvalósítások csak erősíthetik a Mid Data-t. Ironikus, de néhány felsővezető már most azt kéri IT-gárdájától, hogy „gyűjtsenek be és elemezzenek minden adatot” (főleg a változóakat, a 3V modell jegyében) egy olyan folyamat részeként, amely során „valódi” Big Data adathalmazokat hoznak létre különböző Mid Data adathalmazokból. Ez a vállalati gyakorlat szemlélteti legjobban az említett megtérülés (ROI) problémáját. A Big Data „Szent Grálként” való üldözése semmilyen valós előnyt nem garantál. Mi, akik mind a Small Data, mind a Mid Data elemzése terén jól képzettek vagyunk, tökéletesen tudjuk, hogy ugyanannak az elemzésnek különböző adatbázisokon való lefuttatása általában eredménytelen.

Körülbelül annyi értelme van a számviteli adatokat a fogyasztói vélemény-adatokkal összevetni, mint az almát a körtéhez hasonlítani. A japán fogyasztókat az amerikai fogyasztókkal összemérni több okból is felesleges és eredménytelen, a kulturális különbségektől kezdve a különféle egyéb különbségekig.

A legtöbbünk számára a Mid Data lesz az, amivel érdemes foglalkozni.

(Piackutatás blog)

Facebook Tumblr Tweet Pinterest Tetszik

2 komment

Címkék: adatbázis adat piackutatás adatgyűjtés adatbányászat portfolioblogger big data business intelligence

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

2014.03.21. 17:11:19

" A japán fogyasztókat az amerikai fogyasztókkal összemérni több okból is felesleges és eredménytelen, a kulturális különbségektől kezdve a különféle egyéb különbségekig."

Nem pont az lesz az értelme, hogy felszínre kerülnek ezek a különbségek?

Válasz erre

Forecast Research - www.forecast.hu · http://piackutatas.blog.hu 2014.03.21. 17:17:42

Teljesen eltérő adathalmazok összekapcsolásáról van szó. A japán és az amerikai fogyasztók közti különbséget ezer dolog okozhatja, ezt a big data nem válaszolja meg. Gondolom arról is szó van, hogy az adatok struktúrája is eltérő, vagy más körülmények közt, más módszertan alapján gyűjtötték az adatokat, stb. Szóval nem összehasonlíthatóak ezek, még akkor sem, ha technikailag megoldható lenne az elemzésük.

Válasz erre

Piackutatás blog

"Ne szóljatok anyámnak, hogy piackutató vagyok. Azt hiszi, utcaseprőként dolgozom."

HTML

Piackutatás.blog.hu

Piackutatás Hírek

Ajánló

Linkajánló

Utolsó cikkek

Tagek - Főbb témakörök

Archívum

Egyéb

Creative Commons licenc

Feedek

Big Data, Mid Data, Small Data

2014.03.21. 13:07 Forecast Research - www.forecast.hu

2 komment

Címkék: adatbázis adat piackutatás adatgyűjtés adatbányászat portfolioblogger big data business intelligence

Kommentek:

Tyson925 · http://economy.blog.hu/ 2014.03.21. 17:11:19

Forecast Research - www.forecast.hu · http://piackutatas.blog.hu 2014.03.21. 17:17:42

Piackutatás blog

"Ne szóljatok anyámnak, hogy piackutató vagyok. Azt hiszi, utcaseprőként dolgozom."

HTML

Piackutatás.blog.hu

Piackutatás Hírek

Ajánló

Linkajánló

Utolsó cikkek

Tagek - Főbb témakörök

Archívum

Egyéb

Creative Commons licenc

Feedek

Big Data, Mid Data, Small Data

2014.03.21. 13:07 Forecast Research - www.forecast.hu

2 komment

Címkék: adatbázis adat piackutatás adatgyűjtés adatbányászat portfolioblogger big data business intelligence

Ajánlott bejegyzések:

Kommentek:

Tyson925 · http://economy.blog.hu/ 2014.03.21. 17:11:19

Forecast Research - www.forecast.hu · http://piackutatas.blog.hu 2014.03.21. 17:17:42