MATRIX náš každodenný

Termín big data označuje veľký
súbor dát, ktorý sa nachádza na webe. Predtým než bolo možné
ho triediť sme "strácali" mnoho dát, ktoré sme
považovali za nepotrebné, no dnes sa využíva všetko a najmä
"dátové splodiny". Zdá sa to ako nepodstatné
informácie, ale práve tie o nás vedia prezradiť úplne najviac.
Ak o tom vôbec nevieme, tak tieto spodinové informácie o sebe
dobrovoľne sami odovzdávame - vo veľkom. Mali by sme si však byť
vedomý toho, že raz príde deň, kedy budú tieto splodiny použité
proti nám....
Našich potomkov by sme mali vychovávať vedomým spôsobom a viesť s nimi diskusie na zásadné témy ľudského života. Aj svet internetu tam patrí, ak ale vôbec nechápeme týmto "pravidlám", tak to ani nemôžeme vysvetliť našim deťom. Akými otrokmi týchto technológií budú naše deti? O tom rozhoduješ v prvom rade TY - RODIČ! Škola im nevysvetlí pravidlá webovej HRY a prevádzkovatelia sociálnych sietí, aplikácií, vyhľadávačov či vydavatelia platobných kariet nechcú, aby populácia vedela, čo sa deje za oponou.
Skoro celý tento článok som opisovala z knihy BIG DATA, ktorá vyšla v roku 2014 a teda sme zjavne pozadu, ale mne otvorila oči a snáď to trochu pomôže aj vám, pochopiť tento podivný svet MATRIXU a našich AVATAROV v ňom.
BIG DATA - Viktor Mayer-Schonberger a Kenneth Cukier
Ak máme veľký súbor dát, môžeme pozorovať detaily, ktoré by sme si pri obmedzenom množstve nikdy nemohli všimnúť. Čím viac sú prepojené, tým lepší celkový obraz dostávame. Preto čím viac informácií o sebe dávate do online sveta, tým lepší obraz o vás samých, bude mať "web" (prevádzkovateľ siete, appky...).
BIG DATA nám odpovedávajú na otázky ČO, aj keď nevieme PREČO. Nie je vždy nutné poznať príčinu javu, ale dáta v obrovskom množstve k nám dnes vedia prehovárať samé. Pred príchodom veledát sme sa pri analýzach obmedzovali na testovanie hypotéz, ktoré sme si definovali ešte skôr, ako sme začali dáta zbierať. Dnes (r. 2013), keď načúvame dátam, môžeme nájsť väzby, ktoré by nás nikdy ani nenapadli.
"Pokiaľ milióny elektronických zdravotných záznamov odhalia, že u onkologických pacientov, ktorí užívajú určitú kombináciu liekov, dochádza k ústupu nádoru, potom môže byť presná príčina zlepšenia zdravotného stavu menej dôležitá ako samotný fakt, že prežili."
Vo svete malých dát bolo prirodzené a logické obmedzovať chyby a snažiť sa o vysokú kvalitu dát. Vzhľadom k tomu, že informácií bolo málo, bolo potrebné si dať záležať na tom, aby získané údaje boli čo najbližšie skutočnosti. V dnešnej dobe však platí pravidlo, že "radšej viac horších dát, než menej lepších."
Príklad:
Predpokladajme, že chceme merať teplotu na vinici. Pokiaľ máme iba jeden teplotný senzor pre celý pozemok, potrebujeme, aby bol presný a fungoval nepretržite. Žiadnu chybovosť si nemôžeme dovoliť. Naproti tomu, ak vybavíme teplotným senzorom každú rastlinu pri koreni, môžeme použiť lacnejšie a jednoduchšie senzory. Aj keď budú niektoré senzory občas ukazovať nepresnú hodnotu alebo sa pokazia, celkový súhrn informácií nám dá presnejší výstup.
Digitalizácia a datafikácia
Digitalizácia je proces prevodu analógových informácií na nuly a jednotky binárneho kódu.
Datafikácia spracováva mnoho aspektov ľudského života do digitálnych dát. Digitalizácia značne urýchľuje datafikáciu a do dátovej formy sa dá preniesť skoro čokoľvek.
Digitálny giganti si uvedomili ako veľmi potrebujú dáta a tak začal samotný Google najskôr digitalizovať texty = stránky s textom scanoval a zaznamenával v digitálnom obrazovom formáte. Do roku 2012 oskenoval viac ako 20 miliónov titulov a použil tento datafikovaný text k tomu, aby zlepšil kvalitu vlastných strojových prekladov. Keďže v obrazových súboroch nebolo možné vyhľadávať pomocou slov a systém bol na toto čítanie textu "krátky", začali využívať samotných užívateľov, aby tieto texty čítali a "prekladali ich" - reCaptcha.
Systém Captcha bol vymyslený hlavne z dôvodu toho, aby overil, že sa jedná o skutočného človeka a vygeneroval náhodné písmená, ktoré užívateľ zadal do kolónky. Neskôr začali tento systém využívať aj chytrejším spôsobom ReCaptcha, kde užívateľ vypisuje dve slová. Účelom prvého slova je potvrdiť, čo zadali iní užívatelia. Slúži ako signál, že úlohu skutočne rieši osoba a nie stroj. Potom nasleduje druhé slovo, s ktorým potrebuje systém pomôcť a označiť ho správne - preložiť ho. Aby sa zaistila presnosť, systém rovnaké nejasné slovo predkladá v priemere piatim rôznym ľuďom. Až potom, keď opakovane dostane rovnakú odpoveď, predpokladá, že slovo je zapísané správne.
Dátové body a dátové sady
Dátová sada obsahuje viac dátových bodov, takže nám poskytne cennejšie výsledky.
Keďže po digitalizácií prichádza datafikácia a my potrebujeme veľký obsah správne kategorizovať, prichádzajú na scénu tagy. Tie označujú hlavne súbory, ktoré neobsahujú text - fotky a videá. Stačí, keď túto funkciu bude používať veľká väčšina používateľov internetu a sami budú triediť obsah webu a "správne" ho kategorizovať. Je to obrovská webová knižnica, z ktorej potom bude čerpať umelá inteligencia takže si na správnosti tagov dajte záležať. :D Nezabudnite označovať seba a najlepšie celým menom a aj všetkých svojich kamarátov s ktorými práve trávite čas - ideálne označiť aj miesto a náladu.... (miesto nemusíte, to odovzdáva váš telefón aj tak a firmy s tým potom kupčia). Špehovanie vášho správania na internete dáva umelej inteligencií návody. Čím viac ľudí odovzdáva svoje jednotlivé informácie (dátové body) do určitého celku (dátovej sady), tým presnejšie sa AI rozhodne napríklad pri odporúčaní knihy.
Nie tak dávno fungoval princíp odporúčania knihy na "primitívnom" spôsobe, že ak ste si kúpili knihu o Poľsku, systém vás zaplavil publikáciami o strednej Európe. V roku 1998 však nastala zmena a Linden podal žiadosť o patent na tzv. kolaboratívne filtrovanie medzi položkami. Počítač síce nemusí vedieť, prečo čitateľ Ernesta Hemingwaye môže mať záujem tiež o knihu F. Scotta Fitzgeralda, ale keďže nepotrebujeme vedieť PREČO, tak nám stačí vedieť ČO ponúknuť bezbrannému chudákovi, ktorí ani nevie ako systému posluhuje a ako je následne systém zneužívaný proti nemu samému.
Ďalšou sférou kde sa datafikácia čoraz viac presadzuje, je značne osobnejšia a my sami odovzdávame až príliš často, až príliš veľa. Facebook datafikuje hlavne vzťahy, Twitter skôr nálady a LinkedIn datafikoval kariérne skúsenosti. Bohaté databázy firiem z oblasti sociálnych médií sa stávajú základom nového využívania citlivých informácií. Zďaleka sa nemusíme obmedzovať na povrchné zdieľanie fotografií, aktualizácie stavov či používanie tlačítka "páči sa mi".
Korelácia v digitálnom svete
Princíp korelácie spočíva v tom, že kvantifikuje štatistický vzťah medzi dvoma dátovými hodnotami.
Silná korelácia znamená, že keď sa zmení jedna hodnota, s vysokou pravdepodobnosťou ju bude nasledovať aj druhá hodnota. Príklad: čím viac ľudí v určitej lokalite vyhľadáva cez Google určité termíny, tým viac ľudí v danom meste má chrípku.
Keď vieme, že A nastáva spolu s B, môžeme sledovať výskyt B a predpovedať, že dôjde k A.
Dátové splodiny
Digitálne stopy, ktoré za sebou ľudia zanechávajú sa označujú novým termínom "dátové splodiny". Tieto nám hovoria o tom, kam užívatelia klikajú myšou, ako dlho čítajú stránku, kde umiestňujú kurzor myši, čo zadávajú...
"Dátový prostredníci" zhromažďujú dáta z viacerých zdrojov a inovatívnym spôsobom ich spracovávajú. Vo svete BIG DATA však ani nevieme predpokladať ako budú naše dátové splodiny či iné informácie o nás ako užívateľoch použité (zneužité) v budúcnosti.
Viac ako si uvedomujeme, sme náchylný prijať "diktatúru dát" - to znamená pripustiť, že dáta budú riadiť naše osudy spôsobom, ktorý môže spôsobiť viac škôd než by prinášalo úžitku. Napríklad princíp "profilovania" je veľkým nebezpečenstvom v otázke slobody a demokracie. Pri zneužití môže viesť nie len k diskriminácií určitých skupín, ale tiež k tomu, že budú určitý ľudia považovaný za vinníkov len kvôli svojej príslušnosti. Už nie len v Amerike sa nasadzuje "prediktívne zaisťovanie bezpečnosti", čo znamená, že na základe analýzy veledát sa vyberajú ulice, skupiny a jednotlivci, ktorí majú byť predmetom zvláštnej pozornosti. Takéto preventívne opatrenia obmedzujú našu slobodu, ale veľa ľudí sa domnieva, že sa jedná o malú cenu za to, že nedôjde k omnoho väčším škodám. Trestanie založené na predpovediach je veľmi nebezpečnou hrozbou v budúcom svete. Avšak pomocou veledát dokážeme ľudské chovanie stále presnejšie predpovedať. Táto možnosť nás zvádza k tomu, aby sme ľudí posudzovali nie podľa toho, čo urobili, ale na základe toho, čo podľa našich predpovedí ešte len urobia a tým im berieme ich základnú slobodu voliť si svoje chovanie.
DOPORUČUJEM:
- knihu BIG DATA aj keď už je značne pozadu :)
- toto video od Petr Mára