Ce este știința datelor? Un ghid pentru începători pentru știința datelor



Știința datelor este viitorul inteligenței artificiale. Aflați ce este Data Science, cum poate adăuga valoare afacerii dvs. și diferitele sale etape ale ciclului de viață.

Pe măsură ce lumea a intrat în era Big Data, a crescut și nevoia de stocare. A fost principala provocare și preocupare pentru industriile întreprinderii până în 2010. Principalul accent a fost construirea unui cadru și soluții pentru stocarea datelor. Acum, când Hadoop și alte cadre au rezolvat cu succes problema stocării, accentul sa mutat asupra procesării acestor date. Data Science este sosul secret aici. Toate ideile pe care le vedeți în filmele SF SF de la Hollywood se pot transforma de fapt în realitate prin Data Science. Știința datelor este viitorul inteligenței artificiale. Prin urmare, este foarte important să înțelegeți ce este știința datelor și cum poate adăuga valoare afacerii dvs.

Edureka 2019 Ghidul de carieră tehnică este disponibil! Cele mai tari roluri de locuri de muncă, căi de învățare precise, perspective industriale și multe altele în ghid. Descarca acum.

În acest blog, voi acoperi următoarele subiecte.





Până la sfârșitul acestui blog, veți putea înțelege ce este știința datelor și rolul acesteia în extragerea unor informații semnificative din seturile complexe și mari de date din jurul nostru.Pentru a obține cunoștințe aprofundate despre știința datelor, vă puteți înscrie pentru live de Edureka cu suport 24/7 și acces pe viață.

Ce este Data Science?

Știința datelor este un amestec de diverse instrumente, algoritmi și principii de învățare automată, cu scopul de a descoperi modele ascunse din datele brute. Dar ce diferă acest lucru de ceea ce fac statisticiștii de ani de zile?



Răspunsul constă în diferența dintre explicare și prezicere.

Data Analyst v / s Data Science - Edureka

După cum puteți vedea din imaginea de mai sus, un analist de dateexplică de obicei ce se întâmplă prin procesarea istoricului datelor. Pe de altă parte, Data Scientist nu numai că face analiza exploratorie pentru a descoperi informații din aceasta, dar folosește și diverși algoritmi avansați de învățare automată pentru a identifica apariția unui anumit eveniment în viitor. Un om de știință al datelor va analiza datele din mai multe unghiuri, uneori unghiuri necunoscute anterior.



Deci, Știința datelor este utilizată în primul rând pentru a lua decizii și predicții folosind analiza cauzală predictivă, analiza prescriptivă (predictivă plus știința deciziei) și învățarea automată.

  • Analiză cauzală predictivă - Dacă doriți un model care să prezică posibilitățile unui anumit eveniment în viitor, trebuie să aplicați analize cauzale predictive. Spuneți, dacă furnizați bani pe credit, atunci probabilitatea ca clienții să efectueze viitoare plăți de credit la timp este o problemă de îngrijorare pentru dvs. Aici puteți construi un model care poate efectua analize predictive asupra istoricului de plată al clientului pentru a prezice dacă viitoarele plăți vor fi sau nu la timp.
  • Analize prescriptive: Dacă doriți un model care să aibă inteligența de a lua propriile decizii și capacitatea de a-l modifica cu parametri dinamici, cu siguranță aveți nevoie de analize prescriptive pentru acesta. Acest domeniu relativ nou se referă la furnizarea de sfaturi. Cu alte cuvinte, nu numai că prezice, dar sugerează o serie de acțiuni prescrise și rezultate asociate.
    Cel mai bun exemplu pentru acest lucru este mașina cu conducere automată a Google despre care am discutat și eu mai devreme. Datele colectate de vehicule pot fi folosite pentru antrenarea autoturismelor. Puteți rula algoritmi pe aceste date pentru a le aduce informații. Acest lucru vă va permite mașinii să ia decizii, cum ar fi când să mergeți, ce cale să luați,când să încetinească sau să accelereze.
  • Învățare automată pentru a face predicții - Dacă aveți date tranzacționale ale unei companii financiare și trebuie să construiți un model pentru a determina tendința viitoare, atunci algoritmii de învățare automată sunt cel mai bun pariu. Acest lucru se încadrează în paradigma învățării supravegheate. Se numește supravegheat, deoarece aveți deja datele pe baza cărora vă puteți antrena mașinile. De exemplu, un model de detectare a fraudei poate fi instruit folosind o înregistrare istorică a achizițiilor frauduloase.
  • Învățare automată pentru descoperirea tiparelor - Dacă nu aveți parametrii pe baza cărora puteți face predicții, atunci trebuie să aflați tiparele ascunse din setul de date pentru a putea face predicții semnificative. Acesta nu este altceva decât modelul nesupravegheat, deoarece nu aveți etichete predefinite pentru grupare. Cel mai comun algoritm utilizat pentru descoperirea tiparului este Clustering.
    Să presupunem că lucrați într-o companie de telefonie și că trebuie să creați o rețea punând turnuri într-o regiune. Apoi, puteți utiliza tehnica de grupare pentru a găsi acele locații ale turnurilor care vor asigura că toți utilizatorii primesc puterea optimă a semnalului.

Să vedem în ce măsură diferă proporția abordărilor descrise mai sus atât pentru analiza datelor, cât și pentru știința datelor. După cum puteți vedea în imaginea de mai jos, Analiza datelorinclude analize descriptive și predicții într-o anumită măsură. Pe de altă parte, Știința datelor este mai mult despre analiza cauzală predictivă și învățarea automată.

Analiza științei datelor - Edureka

Acum, că știi ce este exact Știința datelor, să aflăm acum motivul pentru care a fost nevoie în primul rând.

De ce știința datelor?

  • În mod tradițional, datele pe care le aveam erau în mare parte structurate și de dimensiuni reduse, care puteau fi analizate folosind instrumente simple de BI.Spre deosebire de datele dinsisteme tradiționale care erau în mare parte structurate, astăzi majoritatea datelor sunt nestructurate sau semi-structurate. Să aruncăm o privire asupra tendințelor datelor din imaginea prezentată mai jos, care arată că până în 2020, mai mult de 80% din date vor fi nestructurate.
    Fluxul de date nestructurate - Edureka
    Aceste date sunt generate din diferite surse, cum ar fi jurnalele financiare, fișierele text, formularele multimedia, senzorii și instrumentele. Instrumentele simple de BI nu sunt capabile să proceseze acest volum imens și varietate de date. Acesta este motivul pentru care avem nevoie de instrumente și algoritmi analitici mai complexi și mai avansați pentru procesarea, analiza și extragerea unor informații semnificative din acesta.

Acesta nu este singurul motiv pentru care Știința datelor a devenit atât de populară. Să cercetăm mai adânc și să vedem cum se folosește Știința datelor în diferite domenii.

  • Ce-ar fi dacă ați putea înțelege cerințele precise ale clienților dvs. din datele existente, cum ar fi istoricul de navigare trecut al clientului, istoricul achizițiilor, vârsta și venitul. Fără îndoială că ați avut toate aceste date și mai devreme, dar acum, cu cantitatea și varietatea mare de date, puteți instrui modele mai eficient și puteți recomanda produsul clienților dvs. cu mai multă precizie. Nu ar fi uimitor, deoarece va aduce mai multe afaceri organizației dvs.?
  • Să luăm un scenariu diferit pentru a înțelege rolul științei datelor în luarea deciziilor.Ce zici dacă mașina ta a avut inteligența să te conducă acasă? Mașinile cu conducere automată colectează date în direct de la senzori, inclusiv radare, camere și lasere pentru a crea o hartă a împrejurimilor sale. Pe baza acestor date, ia decizii cum ar fi când să accelereze, când să accelereze, când să depășească, unde să ia o rundă - folosind algoritmi avansați de învățare automată.
  • Să vedem cum poate fi folosită Știința datelor în analiza predictivă. Să luăm ca exemplu prognozele meteo. Datele de la nave, aeronave, radare, sateliți pot fi colectate și analizate pentru a construi modele. Aceste modele nu numai că vor prognoza vremea, ci vor ajuta și la prezicerea apariției unor calamități naturale. Vă va ajuta să luați măsurile adecvate în prealabil și să salvați multe vieți prețioase.

Să aruncăm o privire la infografia de mai jos pentru a vedea toate domeniile în care Data Science își creează impresia.

Cazuri de utilizare a științei datelor - Edureka

Cine este un Data Scientist?

Există mai multe definiții disponibile pentru Data Scientists. În cuvinte simple, un Data Scientist este cel care practică arta Științei Datelor.Termenul „Data Scientist” a fostinventat după luarea în considerare a faptului că un Data Scientist atrage o mulțime de informații din domeniile și aplicațiile științifice, fie că este vorba de statistici sau matematică.

Ce face un Data Scientist?

Oamenii de știință în domeniul datelor sunt cei care sparg probleme complexe de date cu expertiza lor puternică în anumite discipline științifice. Lucrează cu mai multe elemente legate de matematică, statistică, informatică etc (deși este posibil să nu fie un expert în toate aceste domenii).Folosesc mult cele mai noi tehnologii pentru a găsi soluții și pentru a ajunge la concluzii care sunt cruciale pentru creșterea și dezvoltarea unei organizații. Oamenii de știință de date prezintă datele într-o formă mult mai utilă în comparație cu datele brute pe care le dispun din forme structurate, precum și nestructurate.

Pentru a afla mai multe despre un Data Scientist, puteți consulta acest articol

Mergând mai departe, să discutăm acum despre BI. Sunt sigur că ați auzit și de Business Intelligence (BI). Adesea Știința datelor este confundată cu BI. Voi afirma unele concise și clarecontrastele dintre cele două, care vă vor ajuta să obțineți o mai bună înțelegere. Hai să aruncăm o privire.

Business Intelligence (BI) vs. Data Science

  • Business Intelligence (BI) analizează practic datele anterioare pentru a găsi retrospectivă și perspectivă pentru a descrie tendințele afacerii. Aici BI vă permite să preluați date din surse externe și interne, să le pregătiți, să rulați interogări pe acesta și să creați tablouri de bord pentru a răspunde la întrebări precumanaliza trimestrială a veniturilorsau probleme de afaceri. BI poate evalua impactul anumitor evenimente în viitorul apropiat.
  • Știința datelor este o abordare mai orientată spre viitor, o modalitate exploratorie cu accent pe analiza datelor trecute sau actuale și prezicerea rezultatelor viitoare cu scopul de a lua decizii în cunoștință de cauză. Acesta răspunde la întrebările deschise cu privire la „ce” și „cum” au loc evenimentele.

Să aruncăm o privire la câteva caracteristici contrastante.

Caracteristici Business Intelligence (BI) Știința datelor
Surse de dateStructurat
(De obicei SQL, adesea Data Warehouse)
Atât structurate, cât și nestructurate

diferența dintre c c ++ și java

(jurnale, date cloud, SQL, NoSQL, text)

AbordareStatistică și vizualizareStatistică, învățare automată, analiză grafică, programare neurolingvistică (NLP)
Concentrați-văTrecut si prezentPrezent și Viitor
InstrumentePentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R

Aceasta a fost totul despre ceea ce este știința datelor, acum să înțelegem ciclul de viață al științei datelor.

O greșeală obișnuită făcută în proiectele de știință a datelor se grăbește în colectarea și analiza datelor, fără a înțelege cerințele sau chiar a încadra corect problema afacerii. Prin urmare, este foarte important pentru dvs. să urmați toate fazele de-a lungul ciclului de viață al științei datelor pentru a asigura buna funcționare a proiectului.

Ciclul de viață al științei datelor

Iată o scurtă prezentare generală a principalelor faze ale ciclului de viață al științei datelor:

Ciclul de viață al științei datelor - Edureka


Descoperirea științei datelor - EdurekaFaza 1 - Descoperire:
Înainte de a începe proiectul, este important să înțelegeți diversele specificații, cerințe, priorități și bugetul necesar. Trebuie să aveți capacitatea de a pune întrebările corecte.Aici, evaluați dacă aveți resursele necesare prezente în termeni de oameni, tehnologie, timp și date pentru a sprijini proiectul.În această fază, trebuie, de asemenea, să încadrați problema de afaceri și să formulați ipoteze inițiale (IH) pentru testare.

Pregătirea datelor științei datelor - Edureka

Etapa 2 - Pregătirea datelor: În această fază, aveți nevoie de sandbox analitic în care puteți efectua analize pe toată durata proiectului. Trebuie să explorați, să prelucrați în prealabil și să condiționați datele înainte de modelare. În plus, veți efectua ETLT (extrageți, transformați, încărcați și transformați) pentru a obține date în sandbox. Să aruncăm o privire asupra fluxului de analiză statistică de mai jos.

Ciclul de viață al științei datelor
Puteți utiliza R pentru curățarea, transformarea și vizualizarea datelor. Acest lucru vă va ajuta să identificați valorile aberante și să stabiliți o relație între variabile.După ce ați curățat și pregătit datele, este timpul să faceți explorărianaliticepe el. Să vedem cum puteți realiza acest lucru.

Etapa 3 — Planificarea modelului: Planificarea modelului științei datelor - Edureka Aici, veți determina metodele și tehnicile pentru a desena relațiile dintre variabile.Aceste relații vor stabili baza algoritmilor pe care îi veți implementa în faza următoare.Veți aplica Exploratory Data Analytics (EDA) folosind diverse formule statistice și instrumente de vizualizare.

Să aruncăm o privire asupra diferitelor instrumente de planificare a modelelor.

Instrumente de planificare a modelelor în știința datelor - Edureka

  1. R are un set complet de capabilități de modelare și oferă un mediu bun pentru construirea de modele interpretative.
  2. Servicii de analiză SQL poate efectua analize în baza de date folosind funcții comune de extragere a datelor și modele predictive de bază.
  3. SAS / ACCES poate fi utilizat pentru a accesa date de la Hadoop și este utilizat pentru crearea de diagrame de flux de modele repetabile și reutilizabile.

Deși, multe instrumente sunt prezente pe piață, dar R este instrumentul cel mai frecvent utilizat.

Acum, că ați obținut informații despre natura datelor dvs. și ați decis algoritmii care vor fi utilizați. În etapa următoare, o vei faceaplicaalgoritmul și construiți un model.

Clădirea modelului științei datelor - EdurekaFaza 4 - Clădire model: În această fază, veți dezvolta seturi de date în scopuri de instruire și testare. Aici ytrebuie să vă gândiți dacă instrumentele dvs. existente vor fi suficiente pentru rularea modelelor sau va avea nevoie de un mediu mai robust (cum ar fi procesarea rapidă și paralelă). Veți analiza diverse tehnici de învățare, cum ar fi clasificarea, asocierea și gruparea pentru a construi modelul.

Puteți realiza construirea de modele prin următoarele instrumente.

Instrumente de construire a modelelor în știința datelor

Faza 5 - Operaționalizați: Data Science operaționalizează - Edureka În această fază, furnizați rapoarte finale, briefing-uri, cod și documente tehnice.În plus, uneori un proiect-pilot este implementat și într-un mediu de producție în timp real. Acest lucru vă va oferi o imagine clară a performanței și a altor constrângeri conexe la scară mică înainte de implementarea completă.


Comunicare în știința datelor - EdurekaFaza 6 - Comunicați rezultatele:
Acum este important să evaluați dacă ați reușit să vă atingeți obiectivul pe care l-ați planificat în prima fază. Deci, în ultima fază, identificați toate constatările cheie, comunicați părților interesate și determinați dacă rezultateleale proiectului sunt un succes sau un eșec pe baza criteriilor dezvoltate în faza 1.

Acum, voi face un studiu de caz pentru a vă explica diferitele faze descrise mai sus.

Studiu de caz: Prevenirea diabetului

Ce se întâmplă dacă am putea prezice apariția diabetului și să luăm măsurile corespunzătoare în prealabil pentru a preveni apariția acestuia?
În acest caz de utilizare, vom prezice apariția diabetului care utilizează întregul ciclu de viață despre care am discutat mai devreme. Să parcurgem diferiți pași.

Pasul 1:

  • Primul,vom colecta datele pe baza istoricului medicalpacientului așa cum s-a discutat în faza 1. Puteți consulta datele probei de mai jos.

Date de eșantion de date științifice - Edureka

  • După cum puteți vedea, avem diferitele atribute menționate mai jos.

Atribute:

  1. npreg - De câte ori este gravidă
  2. glucoză - Concentrația de glucoză plasmatică
  3. bp - Tensiunea arterială
  4. piele - Grosimea pliului pielii triceps
  5. bmi - Indicele masei corporale
  6. ped - Funcția de pedigree a diabetului
  7. vârstă - Vârstă
  8. venituri - Venituri

Pasul 2:

  • Acum, odată ce avem datele, trebuie să curățăm și să pregătim datele pentru analiza datelor.
  • Aceste date au o mulțime de neconcordanțe, cum ar fi valorile lipsă, coloanele goale, valorile bruste și formatul incorect al datelor care trebuie curățate.
  • Aici, am organizat datele într-un singur tabel sub diferite atribute - făcându-le să pară mai structurate.
  • Să aruncăm o privire asupra datelor de mai jos.

Date inconsistente ale științei datelor - Edureka

c ++ sortează o matrice

Aceste date au o mulțime de neconcordanțe.

  1. În coloană npreg , „Unu” este scris încuvinte,întrucât ar trebui să aibă forma numerică ca 1.
  2. În coloană bp una dintre valori este 6600 ceea ce este imposibil (cel puțin pentru oameni) deoarece bp nu poate ajunge la o valoare atât de mare.
  3. După cum puteți vedea Sursa de venit coloana este goală și, de asemenea, nu are sens în prezicerea diabetului. Prin urmare, este redundant să-l aveți aici și ar trebui eliminat de la masă.
  • Deci, vom curăța și pre-prelucra aceste date eliminând valorile aberante, completând valorile nule și normalizând tipul de date. Dacă vă amintiți, aceasta este a doua fază a noastră, care este preprocesarea datelor.
  • În cele din urmă, obținem datele curate așa cum se arată mai jos, care pot fi utilizate pentru analiză.

Date coerente în știința datelor - Edureka

creați un pachet în java

Pasul 3:

Acum, să facem o analiză așa cum am discutat mai devreme în faza 3.

  • În primul rând, vom încărca datele în sandbox-ul analitic și vom aplica diverse funcții statistice pe acesta. De exemplu, R are funcții precum descrie ceea ce ne oferă numărul de valori lipsă și valori unice. Putem utiliza, de asemenea, funcția de rezumat, care ne va oferi informații statistice, cum ar fi valorile medii, mediane, interval, min și max.
  • Apoi, folosim tehnici de vizualizare, cum ar fi histograme, grafice liniare, graficele cutiei, pentru a ne face o idee corectă despre distribuția datelor.

Vizualizarea științei datelor - Edureka

Pasul 4:

Acum, pe baza informațiilor derivate din pasul anterior, cea mai bună potrivire pentru acest tip de problemă este arborele decizional. Să vedem cum?

  • Deoarece, avem deja atributele majore pentru analize precum npreg, bmi , etc., așa că vom folositehnica de învățare supravegheată pentru a construi unmodel aici.
  • Mai mult, am folosit în mod special arborele decizional, deoarece ia în considerare toate atributele dintr-o singură dată, precum cele care au unrelație liniară, precum și cele care au o relație neliniară. În cazul nostru, avem o relație liniară între npreg și vârstă, întrucât relația neliniară dintre npreg și ped .
  • Modelele arborelui decizional sunt, de asemenea, foarte robuste, deoarece putem folosi combinația diferită de atribute pentru a realiza diverși arbori și apoi să îl implementăm în cele din urmă cu eficiența maximă.

Să aruncăm o privire asupra arborelui nostru de decizie.

Set de date de copac de proiectare

Aici, cel mai important parametru este nivelul de glucoză, deci este nodul nostru rădăcină. Acum, nodul curent și valoarea acestuia determină următorul parametru important care trebuie luat. Continuă până obținem rezultatul în termeni de poz sau neg . Pos înseamnă că tendința de a avea diabet este pozitivă și neg înseamnă tendința de a avea diabet este negativă.

Dacă doriți să aflați mai multe despre implementarea arborelui decizional, consultați acest blog

Pasul 5:

În această fază, vom derula un mic proiect-pilot pentru a verifica dacă rezultatele noastre sunt adecvate. De asemenea, vom căuta constrângeri de performanță, dacă există. Dacă rezultatele nu sunt exacte, atunci trebuie să replanificăm și să reconstruim modelul.

Pasul 6:

Odată ce am executat proiectul cu succes, vom partaja rezultatul pentru implementarea completă.

A fi cercetător în date este mai ușor de spus decât de făcut. Așadar, să vedem de ce aveți nevoie pentru a fi Data Scientist.Un Data Scientist necesită abilități în principiudin trei zone majore, așa cum se arată mai jos.

Competențe în știința datelor - Edureka

După cum puteți vedea în imaginea de mai sus, trebuie să dobândiți diverse abilități dificile și abilități ușoare. Trebuie să fii bun la statistici și matematică pentru a analiza și vizualiza date. Inutil să spun, Învățare automată formează inima științei datelor și necesită să fii bun la asta. De asemenea, trebuie să aveți o înțelegere solidă a domeniu lucrați pentru a înțelege clar problemele de afaceri. Sarcina ta nu se termină aici. Ar trebui să fiți capabil să implementați diferiți algoritmi care necesită un bun codificare aptitudini. În cele din urmă, după ce ați luat anumite decizii cheie, este important pentru dvs. să le transmiteți părților interesate. Atât de bine comunicare cu siguranță va adăuga puncte brownie la abilitățile tale.

Vă îndemn să vedeți acest tutorial video pentru știința datelor, care explică ce este știința datelor și tot ce am discutat în blog. Continuați, bucurați-vă de videoclip și spuneți-mi ce credeți.

Ce este știința datelor? Curs de știința datelor - Tutorial pentru știința datelor pentru începători | Edureka

Acest videoclip al cursului Edureka Data Science vă va duce la necesitatea științei datelor, ce este știința datelor, cazuri de utilizare a științei datelor pentru afaceri, BI vs știința datelor, instrumente de analiză a datelor, ciclul de viață al științei datelor împreună cu o demonstrație.

În cele din urmă, nu va fi greșit să spunem că viitorul aparține Data Scientists. Se anticipează că până la sfârșitul anului 2018 va fi nevoie de aproximativ un milion de oameni de știință în domeniul datelor. Din ce în ce mai multe date vor oferi oportunități de a conduce decizii de afaceri cheie. În curând va schimba modul în care privim lumea înundată cu date din jurul nostru. Prin urmare, un Data Scientist ar trebui să fie extrem de calificat și motivat să rezolve cele mai complexe probleme.

Sper că v-a plăcut să citiți blogul meu și ați înțeles ce este Data Science.Verificați-ne aici, vine cu instruire live condusă de instructor și experiență de proiect din viața reală.