Tutorial Big Data: Tot ce trebuie să știți despre Big Data!



Acest blog pe Tutorialul Big Data vă oferă o prezentare completă a Big Data, caracteristicile sale, aplicațiile, precum și provocările cu Big Data.

Tutorial Big Data

Big Data, nu ați mai auzit acest termen? Sunt sigur că ai făcut-o. În ultimii 4 până la 5 ani, toată lumea vorbește despre Big Data. Dar știți cu adevărat ce este exact acest Big Data, cum are un impact asupra vieții noastre și de ce organizațiile caută profesioniști cu ? În acest tutorial Big Data, vă voi oferi o perspectivă completă despre Big Data.

Mai jos sunt subiectele pe care le voi aborda în acest tutorial Big Data:





  • Povestea Big Data
  • Factori de stimulare a datelor mari
  • Ce este Big Data?
  • Caracteristici Big Data
  • Tipuri de date mari
  • Exemple de Big Data
  • Aplicații ale Big Data
  • Provocări cu Big Data

Tutorial Big Data - Edureka

Permiteți-mi să încep acest tutorial Big Data cu o scurtă poveste.



Povestea Big Data

În vremurile străvechi, oamenii obișnuiau să călătorească dintr-un sat în alt sat cu o căruță condusă de cai, dar odată cu trecerea timpului, satele au devenit orașe și oamenii s-au răspândit. Distanța de parcurs de la un oraș la altul a crescut, de asemenea. Deci, a devenit o problemă să călătorești între orașe, împreună cu bagajele. Din senin, a sugerat un tip inteligent, ar trebui să îngrijim și să hrănim mai mult un cal, pentru a rezolva această problemă. Când mă uit la această soluție, nu este atât de rău, dar crezi că un cal poate deveni un elefant? Nu cred. Un alt tip inteligent a spus că, în loc să tragem un căruț de un cal, permiteți-ne să avem 4 cai pentru a trage același cărucior. Ce părere aveți despre această soluție? Cred că este o soluție fantastică. Acum, oamenii pot parcurge distanțe mari în mai puțin timp și chiar pot transporta mai multe bagaje.

Același concept se aplică și pentru Big Data. Big Data spune că, până astăzi, am fost în regulă cu stocarea datelor în serverele noastre, deoarece volumul datelor a fost destul de limitat și timpul de procesare a acestor date a fost, de asemenea, în regulă. Dar acum, în această lume tehnologică actuală, datele cresc prea repede și oamenii se bazează de multe ori pe date. De asemenea, viteza cu care crește datele, devine imposibilă stocarea datelor pe orice server.

Prin intermediul acestui blog pe Tutorialul Big Data, permiteți-ne să explorăm sursele Big Data, pe care sistemele tradiționale nu reușesc să le stocheze și să le proceseze.



Factori de stimulare a datelor mari

Cantitatea de date de pe planeta Pământ crește exponențial din mai multe motive. Diverse surse și activitățile noastre de zi cu zi generează o mulțime de date. Odată cu inventarea webului, întreaga lume a intrat online, fiecare lucru pe care îl facem lasă o urmă digitală. Odată cu accesarea obiectelor inteligente online, rata de creștere a datelor a crescut rapid. Sursele majore ale Big Data sunt site-urile de socializare, rețelele de senzori, imaginile / videoclipurile digitale, telefoanele mobile, înregistrările tranzacțiilor de cumpărare, jurnalele web, dosarele medicale, arhivele, supravegherea militară, comerțul electronic, cercetarea științifică complexă și așa mai departe. Toate aceste informații se ridică la aproximativ cinci miliarde de octeți de date. Până în 2020, volumul de date va fi de aproximativ 40 Zettabytes, ceea ce echivalează cu adăugarea fiecărui bob de nisip de pe planetă înmulțit cu șaptezeci și cinci.

Ce este Big Data?

Big Data este un termen folosit pentru o colecție de seturi de date care sunt mari și complexe, care este dificil de stocat și procesat folosind instrumentele disponibile de gestionare a bazelor de date sau aplicațiile tradiționale de procesare a datelor. Provocarea include captarea, curatarea, stocarea, căutarea, partajarea, transferul, analiza și vizualizarea acestor date.

Caracteristici Big Data

Cele cinci caracteristici care definesc Big Data sunt: ​​Volumul, viteza, varietatea, veridicitatea și valoarea.

  1. VOLUM

    Volumul se referă la „cantitatea de date”, care crește zi de zi într-un ritm foarte rapid. Dimensiunea datelor generate de oameni, mașini și interacțiunile lor pe rețelele de socializare în sine este masivă. Cercetătorii au prezis că până în 2020 vor fi generate 40 Zettabytes (40.000 Exabytes), ceea ce reprezintă o creștere de 300 de ori față de 2005.

  2. VITEZĂ

    Viteza este definită ca ritmul în care diferite surse generează datele în fiecare zi. Acest flux de date este masiv și continuu. În prezent, există 1,03 miliarde de utilizatori activi zilnici (Facebook DAU) pe mobil, ceea ce reprezintă o creștere de 22% față de an. Aceasta arată cât de repede crește numărul de utilizatori pe rețelele de socializare și cât de repede sunt generate zilnic datele. Dacă puteți gestiona viteza, veți putea genera informații și lua decizii pe baza datelor în timp real.

  3. VARIETATE

    Deoarece există multe surse care contribuie la Big Data, tipul de date pe care îl generează este diferit. Poate fi structurat, semi-structurat sau nestructurat. Prin urmare, există o varietate de date care sunt generate în fiecare zi. Anterior, obțineam datele de la Excel și baze de date, acum datele vin sub formă de imagini, audio, videoclipuri, date despre senzori etc. așa cum se arată în imaginea de mai jos. Prin urmare, această varietate de date nestructurate creează probleme în captarea, stocarea, extragerea și analizarea datelor.

  4. VERACITATE

    Veridicitatea se referă la datele în dubiu sau incertitudinea datelor disponibile din cauza inconsecvenței și incompletitudinii datelor. În imaginea de mai jos, puteți vedea că lipsesc puține valori în tabel. De asemenea, câteva valori sunt greu de acceptat, de exemplu - 15000 valoare minimă în al treilea rând, nu este posibil. Această inconsecvență și incompletitudine este Veracitatea.
    Datele disponibile pot deveni uneori dezordonate și poate fi dificil de încredere. Cu multe forme de date mari, calitatea și precizia sunt dificil de controlat, cum ar fi postările de pe Twitter cu hashtag-uri, abrevieri, greșeli de tipar și vorbire colocvială. Volumul este adesea motivul pentru lipsa de calitate și precizie a datelor.

    sare vs bucătar vs marionetă
    • Din cauza incertitudinii datelor, 1 din 3 lideri de afaceri nu au încredere în informațiile pe care le folosesc pentru a lua decizii.
    • În cadrul unui sondaj s-a constatat că 27% dintre respondenți nu erau siguri de cât de multe dintre datele lor erau inexacte.
    • Calitatea slabă a datelor costă economia SUA în jur de 3,1 trilioane de dolari pe an.
  5. VALOARE

    După discutarea volumului, vitezei, varietății și veridicității, există un alt V care ar trebui luat în considerare atunci când se analizează Big Data, adică valoarea. Este bine și bine să ai acces la maredatedardacă nu-l putem transforma în valoare, este inutil. Prin transformarea ei în valoare, vreau să spun, se adaugă la beneficiile organizațiilor care analizează big data? Organizația care lucrează la Big Data realizează un ROI ridicat (Return On Investment)? Cu excepția cazului în care se adaugă la profiturile lor lucrând la Big Data, este inutil.

Consultați videoclipul nostru Big Data de mai jos pentru a afla mai multe despre Big Data:

Tutorial Big Data pentru începători | Ce este Big Data | Edureka

După cum sa discutat în Variety, există diferite tipuri de date care sunt generate în fiecare zi. Deci, să înțelegem acum tipurile de date:

Tipuri de date mari

Big Data ar putea fi de trei tipuri:

  • Structurat
  • Semi-structurat
  • Nestructurat

  1. Structurat

    Datele care pot fi stocate și procesate într-un format fix sunt denumite date structurate. Datele stocate într-un sistem de gestionare a bazelor de date relaționale (RDBMS) sunt un exemplu de date „structurate”. Este ușor să procesați date structurate, deoarece are o schemă fixă. Limbajul de interogare structurat (SQL) este adesea folosit pentru a gestiona astfel de date.

  2. Semi-structurat

    Semi-Structured Data este un tip de date care nu are o structură formală a unui model de date, adică o definiție a unui tabel într-un SGBD relațional, dar totuși are unele proprietăți organizaționale, cum ar fi etichete și alți markeri, pentru a separa elementele semantice, ceea ce îl face mai ușor a analiza. Fișierele XML sau documentele JSON sunt exemple de date semi-structurate.

  3. Nestructurat

    Datele care au o formă necunoscută și nu pot fi stocate în RDBMS și nu pot fi analizate decât dacă sunt transformate într-un format structurat sunt denumite date nestructurate. Fișierele text și conținutul multimedia precum imagini, audio, videoclipuri sunt exemple de date nestructurate. Datele nestructurate cresc mai repede decât altele, experții spun că 80% din datele dintr-o organizație sunt nestructurate.

    java obține data din șir

Până acum, tocmai am abordat introducerea Big Data. În plus, acest tutorial Big Data vorbește despre exemple, aplicații și provocări în Big Data.

Exemple de Big Data

Zilnic încărcăm milioane de octeți de date. 90% din datele lumii au fost create în ultimii doi ani.

  • Walmart se ocupă mai mult de 1 milion tranzacțiile clienților în fiecare oră.
  • Magazinele Facebook, accesările și analizele 30+ Petabytes de date generate de utilizator.
  • Peste 230 de milioane de tweets sunt create în fiecare zi.
  • Mai mult decât 5 miliarde oamenii apelează, trimit mesaje text, trimit tweeturi și navighează pe telefoanele mobile din întreaga lume.
  • Utilizatorii YouTube încarcă 48 de ore de videoclip nou în fiecare minut al zilei.
  • Mânerele Amazon 15 milioane clientul face clic pe flux date de utilizator pe zi pentru a recomanda produse.
  • 294 miliarde e-mailurile sunt trimise în fiecare zi. Serviciile analizează aceste date pentru a găsi spam-urile.
  • Mașinile moderne au aproape 100 de senzori care monitorizează nivelul combustibilului, presiunea anvelopelor etc., fiecare vehicul generează o mulțime de date despre senzori.

Aplicații ale Big Data

Nu putem vorbi despre date fără să vorbim despre oameni, oameni care beneficiază de aplicațiile Big Data. Aproape toate industriile de astăzi utilizează aplicațiile Big Data într-un mod sau altul.

  • Sănătate mai inteligentă : Folosind petabyte de date ale pacientului, organizația poate extrage informații semnificative și apoi poate crea aplicații care pot prezice în avans starea de deteriorare a pacientului.
  • Telecom : Sectoarele telecomunicațiilor colectează informații, le analizează și oferă soluții la diferite probleme. Prin utilizarea aplicațiilor Big Data, companiile de telecomunicații au reușit să reducă semnificativ pierderea de pachete de date, care are loc atunci când rețelele sunt supraîncărcate, oferind astfel o conexiune perfectă clienților lor.
  • Cu amănuntul : Retailul are unele dintre cele mai strânse marje și este unul dintre cei mai mari beneficiari ai datelor mari. Frumusețea utilizării datelor mari în comerțul cu amănuntul este de a înțelege comportamentul consumatorilor. Motorul de recomandare Amazon oferă sugestii pe baza istoricului de navigare al consumatorului.
  • Control de trafic : Congestia de trafic este o provocare majoră pentru multe orașe la nivel global. Utilizarea eficientă a datelor și a senzorilor va fi cheia pentru a gestiona mai bine traficul, pe măsură ce orașele devin din ce în ce mai populate.
  • de fabricație : Analiza datelor mari din industria prelucrătoare poate reduce defectele componentelor, poate îmbunătăți calitatea produselor, poate crește eficiența și poate economisi timp și bani.
  • Calitatea căutării : De fiecare dată când extragem informații de pe google, generăm simultan date pentru aceasta. Google stochează aceste date și le folosește pentru a-și îmbunătăți calitatea căutării.

Cineva a spus pe bună dreptate: „Nu tot ce este în grădină este roz!” . Până acum, în acest tutorial Big Data, tocmai v-am arătat imaginea roz a Big Data. Dar dacă ar fi atât de ușor să valorificăm Big Data, nu credeți că toate organizațiile ar investi în ea? Permiteți-mi să vă spun în avans, nu este cazul. Există mai multe provocări care apar atunci când lucrați cu Big Data.

Acum, că sunteți familiarizat cu Big Data și diferitele caracteristici ale acestuia, următoarea secțiune a acestui blog despre Tutorialul Big Data va arunca o lumină asupra unora dintre provocările majore cu care se confruntă Big Data.

Provocări cu Big Data

Permiteți-mi să vă spun câteva provocări care vin împreună cu Big Data:

  1. Calitatea datelor - Problema aici este cea 4aV adică Veracitatea. Datele de aici sunt foarte dezordonate, inconsistente și incomplete. Datele murdare costă 600 de miliarde de dolari pentru companii în fiecare an în Statele Unite.
  1. Descoperire - Găsirea de informații despre Big Data este ca și cum ai găsi un ac într-un fân. Analiza petabytes de date folosind algoritmi extrem de puternici pentru a găsi modele și perspective este foarte dificilă.
  1. Depozitare - Cu cât o organizație are mai multe date, cu atât problemele de gestionare a acesteia pot deveni mai complexe. Întrebarea care se pune aici este „Unde să o stochezi?”. Avem nevoie de un sistem de stocare care poate crește cu ușurință în sus sau în jos la cerere.
  1. Analize - În cazul Big Data, de cele mai multe ori nu suntem conștienți de tipul de date cu care avem de-a face, deci analizarea acestor date este și mai dificilă.
  1. Securitate - Întrucât datele au dimensiuni uriașe, păstrarea în siguranță este o altă provocare. Include autentificarea utilizatorului, restricționarea accesului pe baza unui utilizator, înregistrarea istoricelor de acces la date, utilizarea corectă a criptării datelor etc.
  1. Lipsa talentului - Există o mulțime de proiecte Big Data în organizațiile majore, dar o echipă sofisticată de dezvoltatori, oameni de știință de date și analiști care au, de asemenea, o cantitate suficientă de cunoștințe de domeniu este încă o provocare.

Hadoop la salvare

Avem un salvator pentru a face față provocărilor Big Data - Hadoop . Hadoop este un cadru de programare open source, bazat pe Java, care acceptă stocarea și procesarea seturilor de date extrem de mari într-un mediu de calcul distribuit. Face parte din proiectul Apache sponsorizat de Apache Software Foundation.

Hadoop, cu procesarea distribuită, gestionează volume mari de date structurate și nestructurate mai eficient decât depozitul tradițional de date al întreprinderii. Hadoop face posibilă rularea aplicațiilor pe sisteme cu mii de noduri hardware de marfă și gestionarea a mii de terabyți de date. Organizațiile adoptă Hadoop deoarece este un software open source și poate rula pe hardware de bază (computerul dvs. personal).Economiile inițiale de cost sunt dramatice, deoarece hardware-ul de marfă este foarte ieftin. Pe măsură ce datele organizaționale cresc, trebuie să adăugați din ce în ce mai multe hardware de marfă pentru a le stoca și, prin urmare, Hadoop se dovedește a fi economic.În plus, Hadoop are în spate o comunitate Apache robustă care continuă să contribuie la avansarea sa.

Așa cum am promis mai devreme, prin intermediul acestui blog pe Tutorialul Big Data, v-am oferit informații maxime în Big Data. Acesta este sfârșitul Tutorialului Big Data. Acum, următorul pas înainte este să cunoaștem și să învățăm Hadoop. Noi avem o seria de tutoriale Hadoop bloguri care vor oferi în detaliu cunoștințe despre ecosistemul Hadoop complet.

Toate cele bune, Happy Hadooping!

cum să faci o serie de obiecte în java

Acum că ați înțeles ce este Big Data, consultați de Edureka, o companie de învățare online de încredere, cu o rețea de peste 250.000 de elevi mulțumiți răspândiți pe tot globul. Cursul Edureka Big Data Hadoop Certification Training îi ajută pe cursanți să devină experți în HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume și Sqoop folosind cazuri de utilizare în timp real în domeniul Retail, Social Media, Aviație, Turism, Finanțe.

Ai o întrebare pentru noi? Vă rugăm să o menționați în secțiunea de comentarii și vă vom răspunde.

Postări asemănatoare: