Big Data este un concept extrem de actual, chiar indispensabil realităţii în care trăim, în pofida faptului că, poate, mulţi dintre noi îl ignorăm sau l-am ignorat până la un moment dat. Viaţa noastră de fiecare zi, fie că e vorba de cea privată sau de cea profesională, are legătură, într-un fel sau altul, cu un volum uriaş de date.
Cercetare, afaceri, industrie, comerţ, servicii, călătorii, mass-media, aeroporturi, securitate, Internet, geolocaţie, videouri, texte, fotografii, sondaje de opinie, computer, telefon mobil etc., toate presupun generare, stocare şi prelucrare de date.
Experţii în domeniul tehnologiei consideră că Big Data reprezintă una dintre cele mai mari provocări pentru informaticieni, în deceniul 2010 -2020, multe ţări avansate făcând din acest aspect o prioritate în cercetare şi dezvoltare, cu mize majore şi în progresele din zona inteligenţei artificiale.
Ce este Big Data?
Big Data (literal, “Date mari”/”megadate”) desemnează fenomenul de producere, difuzare şi prelucrare a unui uriaş volum de informaţii, din diverse domenii, implicând dezvoltarea unor tehnologii capabile să le interpreteze, pentru a extrage semnificaţii şi corelaţii. “A revolution that will transform how we live” (O revoluţie care va transforma modul în care trăim”), după cum afirma, în cartea cu acelaşi titlu, Viktor Mayer-Schönberger, profesor la Oxford Internet Institute, care coordonează cercetările în “network economy”.
Conceptul Big Data, cu semnificaţiile sale actuale, de sistem tehnologic, pentru analiza unor seturi enorme de date, a prins contur în anii 1990, prelucrând iniţial informaţii ştiinţifice, ulterior, orice fel de informaţii, publice sau private.
Trei sunt caracteristicile fundamentale ale Big Data, concentrate în aşa-numitul “3V”: volumul, velocitatea (frecvenţa şi rapiditatea transmiterii datelor) şi varietatea/diversitatea informaţiilor.
Volumul – începând cu anii 1990, până în prezent, volumul de date prelucrate informatic (Big Analytics) a explodat, astfel încât se preconizează că investiitle în tehnologia specifică, în 2020, vor reprezenta, de exemplu, numai în Europa, 8% din PIB-ul continentului. Dacă, la început, erau necesare computere speciale pentru Big Analytics, în prezent, şi computerele standard suportă un volum uriaş de date. SUA investeşte anual peste 250 de milioane de dolari în proiectele Big Data şi tot în această ţară se găsesc şase dintre cele zece cele mai performante supercomputere de pe planetă.
O unitate de măsură a cantităţii de date este octetul (combinaţie de opt biţi), folosit pentru exprimarea capacităţii de memorie. Un kilooctet (Ko) corespuunde la o mie de octeţi (cam cât cuprinde, de pildă, un fişier text), un megaoctet (Mo) are un milion de octeţi (tot pentru comparaţie, de exemplu, un CD poate avea 650 Mo), un gigaoctet (Go) are un miliard de octeţi (un USB variază între 1 şi 8 Go, altele mult mai mari, pot avea şi 250 Go), un teraoctet (To) are o mie de miliarde de octeţi, un zettaoctet, 10 la puterea 21 octeti.
Dacă în 2010, datele înregistrate într-un an, în întreaga lume, erau de 1,2 zettaocteti, se preconizează că, în 2020, acestea vor fi de 40 zettaocteti. Pentru comparaţie, Facebook genera, în 2014, în fiecare zi, 4000 teraocteti, iar Twitter, 7 teraocteti. Pe de altă parte, alte domenii apelează la volume mult mai mari de date. Square Kilometre Array (SKA), de pildă, un radiotelescop, care va ocupa, la finalul proiectului care se desfăşoară În Africa de Sud, Noua Zeelandă şi Australia, o suprafaţă de un kilometru, cu antene într-o gamă largă de frecvenţe, cu un server ultraperformant, şi care va supraveghea spaţiul de zece mii de ori mai rapid decât s-a făcut până acum, va genera 50 de teraocteti de date prelucrate pe zi, dintr-un volum brut de 7 000 de terraocteti pe secundă.
Velocitatea reprezintă frecvenţa şi rapiditatea cu care datele sunt generate, capturate, partajate şi actualizate. Big Data presupune, de cele mai multe ori, analiza în timp real a unui număr de informaţii mereu în creştere. De exemplu, sistemele informaţionale utilizate la bursă şi companiile trebuie să proceseze date imense, înainte ca un alt ciclu să înceapă, astfel încât oamenii să aibă controlul atunci când principalii operatori devin “roboţi” capabili să lanseze comenzi de vânzare sau cumpărare la nanosecundă.
Varietatea – se referă, în special, la datele complexe, extrase din cele brute – Data Mining (extragerea de cunoştinţe din date/Minerit de date), prin metode matematice şi statistice, care să ajute la luarea deciziilor.
Big Data – avantaje, limite şi riscuri
Sunt indiscutabile beneficiile pe care Big Data le aduce în cercetarea ştiinţifică, în companii, în afaceri, în general, în progresul cunoaşterii, în toate domeniile vieţii sociale sau private. Este de ajuns să ne gândim la uriaşul volum de informaţii pe care îl aduc sateliţii artificiali, date pe baza cărora, printre altele, se fac prognozele meteorologice, sau la importanţa simulărilor pe computer, metodă generalizată în toate ştiinţele.
Supercomputerele, tehnicile de calcul de înaltă performanţă (HPC) au determinat, în ultimii ani, un ritm de dezvoltare fără precedent în medicină, industrie, geologie, explorarea spaţială, inteligenţa artificială etc.
Fără Big Data, specialiştii de la CERN nu ar fi descoperit Bosonul Higgs (Particula lui Dumnezeu), care confirmă Modelul standard din domeniul fizicii particulelor. Decodarea genomului uman a necesitat o muncă de peste zece ani, astăzi se poate face doar în câteva zile. SDSS (Sloan Digital Sky Survey), programul de cercetare de la Observatorul astronomic Apache Point, SUA, a adunat în câteva săptămâni, după ce a început să funcţioneze, mai multe date decât toate cele adunate în istoria astronomiei.
Utilizarea Big Data permite companiilor, antreprenorilor, în funcţie de informaţiile personale şi de acţiunile precedente, să anticipeze zonele de interes ale clienţilor şi să vină în întâmpinarea acestora cu produsele dorite. Exemplele ar putea continua la nesfârşit.
Există însă şi limite şi riscuri în privinţa Big Data:
- Biasuri/erori – dacă există aşa ceva, în informaţiile utilizate la un moment dat, acestea sunt preluate automat, putând duce la analize şi interpretări false, cu toate consecinţele lor.
- Vizualizarea/Reproducerea rezultatelor ştiinţifice – în diverse domenii (ca în astrofizică, de pildă), cu date şi algoritmi complecşi, este aproape imposibilă “vizualizarea” paşilor parcurşi, atunci când se face cunoscută sau se validează o descoperire, un rezultat al unui studiu. De aceea, în prezent, devine tot mai importantă folosirea Open Data (“date deschise”), care să fie uşor de procesat, să fie descărcate fără costuri (de pe Internet), să aibă licenţa, să permită reutilizarea lor etc. Odată cu creşterea în popularitate a Open Data, a crescut însă preocuparea pentru protejarea drepturilor de proprietate intelectuală, atunci când este vorba de cercetare ştiinţifică.
- Protejarea şi prelucrarea datelor personale – este una dintre marile probleme în momentul actual. Este şi motivul pentru care, începând cu 25 mai 2018, a intrat în vigoare Regulamentul General privind Protecţia Datelor, aplicabil în toate statele membre UE. Practic, orice informaţie referitoare la o persoană fizică reprezintă “Date personale” – numele şi prenumele, adresa, cartea de identitate, codul numeric personal, paşaportul, numărul de telefon, adresa de e-mail, imaginea, datele biometrice şi bancare, convingerile politice, religioase sunt date cu caracter personal, iar prelucrarea acestora, fără acordul persoanei în cauză, constituie contravenţie.
Big Data şi viaţa noastră cea de toate zilele
Când este vorba de Big Data, probabil că cea mai mare vulnerabilitate este legată de viaţa noastră privată. Internetul, reţelele de socializare, conturile de email, tranzacţiile online, informaţiile solicitate “în scopul îmbunătăţirii serviciilor”, sondajele de opinie, chestionarele, telefonul mobil, upload şi stocare de fotografii etc., toate datele pe care le presupun aspecte ca cele menţionate anterior sunt înregistrate undeva, analizate, clasificate, stocate.
Evident că toate acestea oferă avantaje enorme, unele devenite indispensabile vieţii noastre în condiţiile de azi. Este însă nevoie de informaţie, educaţie şi autoeducaţie în privinţa felului în care oferim date despre noi, uneori chiar fără ca cineva să le solicite.
De pildă, numai din postările de pe Facebook, rezultă peste 50 de miliarde de fotografii de persoane, din care pot reieşi informaţii despre meseria fiecăruia, unde merge în week-end, ce gusturi are, ce obiceiuri, la care se adaugă alte “detalii” despre locuri pe care le frecventează, în funcţie de conectări repetate la o reţea Wi-Fi locală etc., care intră într-o bază de date şi, cu ajutorul unor software-uri specializate, se realizează, de exemplu, profilul de potenţial client pentru un anumit produs. Diverse studii pe această temă au relevat că inteligenţa artificială ne “cunoaşte” uneori mai bine decât ne cunosc prietenii sau familia.
Chiar simpla apariţie, pe o reţea de socializare, într-o poză de grup (în excursie, la cinematograf, la restaurant, la o petrecere etc.) ajunge tot într-o bază de date, care, automat, caută şi analizează informaţiile. De asemenea, de fiecare dată când cineva postează ceva sau răspunde la un mesaj, lasă o amprentă electronică ce niciodată nu poate fi ştearsă total şi definitiv, mai mult, poate fi chiar restaurată.
Evident că, dincolo de aceste situaţii, nu ar trebui să tragem concluzia că singura soluţie este să abandonăm totul şi să ne retragem într-o grotă. Trebuie doar să fim vigilenţi cu informaţiile pe care le oferim despre noi, în mediile virtuale sau reale, să ne gândim că aşa cum nimeni nu s-ar gândi să se “expună” în piaţa publică, în faţa unei mulţimi, nici în lumea virtuală excesele/imprudenţele nu trebuie să se întâmple.
În pofida unor vulnerabilităţi, Big Data nu este Big Brother în ipostază virtuală şi, poate, nici “vârsta de aur a supravegherii”, cum o numea un expert american în securitate informatică. Într-o lume tot mai interconectată, securitatea online este esenţială, într-adevăr, pentru protecţia vieţii private, dar şi pentru economie, cercetarea ştiinţifică etc., şi responsabilii cu acest domeniu sunt conştienţi de faptul că pierderea încrederii, din partea utilizatorilor de orice fel, ar avea efecte dezastruoase din toate punctele de vedere.
Nu întâmplător, încă de la începutul anilor 2000, un informatician, angajat al CIA (Central Intelligence Agency) şi al NSA (National Security Agency), Edward Snowden, dezvăluind detalii legate de programe de supraveghere în masă, atrăgea atenţia că niciodată drepturile de bază ale vieţii private – dreptul la intimitate, la singurătate, anonimat şi la rezervă faţă de situaţii care nu pot fi anticipate – nu trebuie încălcate.
Între beneficiile enorme pe care le oferă Big Data şi riscuri, tot inteligenţa umană, pusă în slujba binelui, va trebui să găsească drumul, spre progresul general şi al fiecăruia în parte.