Importanța științei datelor cu Cassandra



Cassandra este o bază de date open source pentru a gestiona cantități mari de date pe mai multe servere, astfel încât cererea oamenilor de știință de date cu cunoștințe cassandra este mare.

'

Extinderea rapidă a datelor digitale prin computere, mobil, video, social media, senzori digitali etc., combinată cu progrese majore în puterea de procesare cu costuri mai mici, aplicații de baze de date open source și lățime de bandă mai largă a stârnit un interes masiv în întreaga lume a afacerilor în domeniul emergent al științei Big Data și analitică.





Datele mari din volume mari nestructurate sunt prea mari pentru a fi gestionate și analizate prin metode tradiționale. Cantitatea și viteza ridicate ale datelor de astăzi fac din captarea, filtrarea, stocarea și analiza o adevărată provocare. Noi produse sunt dezvoltate în mod regulat pentru a face față acestui lucru, care necesită noi seturi de competențe și expertiză. Există o nevoie tot mai mare de persoane care pot integra noi infrastructuri, platforme și procese în organizație, precum și de cei care pot construi noi analize și algoritmi capabili să creeze o inteligență enormă de mare valoare pentru afaceri. Pentru mai multe informații, citiți postarea noastră pe blog

Relevanța științei datelor în diferite industrii:

Data Science & Analytics are aplicații în toate industriile:



  • comerț electronic - Motoare de personalizare și recomandare care măresc vânzările.
  • Publicitate - Livrare de anunțuri în timp real foarte direcționată către consumatori.
  • Media și divertisment - Dezvoltare de conținut personalizat care maximizează implicarea utilizatorilor.
  • Rețele sociale - Creșterea „lipiciosității” site-ului, creșterea utilizatorilor, capacitatea de a urmări tendințele de rupere rapidă pe baza sentimentelor consumatorilor.
  • Servicii financiare –Practicile optimizate de creditare care reduc la minimum riscul și frauda.
  • Pharma / Bioinformatică - Îmbunătățirea descoperirii medicamentelor, tratamente mai eficiente ale bolilor amenințătoare, îmbunătățiri inginerești genetice.
  • Sănătate - Scorarea mai bună a pacienților medicali pentru riscurile asupra sănătății, precum și anticiparea și prevenirea precoce a bolilor.
  • Puterea / Energia - Inteligența rețelei inteligente, eficiența utilizării, economiile de energie și reducerea timpilor de nefuncționare.
  • Securitatea informațiilor - Îmbunătățirea semnificativă a detectării și monitorizării furtului a informațiilor și activelor valoroase ale companiei.

Abilități cheie ale profesioniștilor în știința datelor:

Domeniul științei datelor necesită profesioniști care:

  • Înțelege analiza datelor și știința deciziei
  • Sunt bine versați în IT
  • Aveți o înțelegere puternică a afacerilor
  • Poseda capacitatea de a comunica eficient cu factorii de decizie

Citeste mai mult: Aptitudini esențiale necesare pentru a fi cercetător în date.

Tehnologii comune asociate cu practica științei datelor:

Tehnologii asociate cu știința datelor



  • Baze de date

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

program java pentru seria Fibonacci

Aster, Greenplum, Netezza

  • Limbi

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Stup, Porc, Lucene, Mahout, Solr

__init__
  • Statistici și prognoză

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • Vizualizarea datelor

QlikView, Spotfire, Tableau, yWorks, R

  • BI și raportare

BusinessObjects, Cognos, MicroStrategy

Ce este Cassandra?

  • Apache Cassandra este un sistem de gestionare a bazelor de date distribuite open source conceput pentru a gestiona cantități mari de date pe mai multe servere de marfă.
  • Cassandra oferă o disponibilitate ridicată, fără un singur punct de eșec.
  • Cassandra oferă suport robust pentru clustere care se întind pe mai multe centre de date, cu o replicare asincronă fără master care permite operațiuni cu latență redusă pentru toți clienții.

Pentru mai multe informații, citiți postarea noastră pe blog pe .

Cum folosește Data Science Cassandra?

Cassandra este & timid și timid o bază de date distribuită pentru servicii de latență redusă, cu randament ridicat, care gestionează sarcini de lucru în timp real, care conțin sute de actualizări pe secundă și zeci de mii de citiri pe secundă.

Cassandra Utilizare - PROS:

PROS este o companie de software Big Data cu analize prescriptive în software-ul lor, care le facilitează clienților să își analizeze datele și să obțină informații și îndrumări pentru a-și optimiza prețurile, vânzările și gestionarea veniturilor.

Au un serviciu în timp real care calculează disponibilitatea companiei aeriene, luând în considerare dinamic datele privind controlul veniturilor și nivelurile de inventar care se pot schimba de multe sute de ori pe secundă.

Acest serviciu este interogat de câteva mii de ori pe secundă, ceea ce se traduce prin zeci de mii de căutări de date. Stratul lor de stocare pentru acest serviciu este Cassandra.

Pentru soluția lor în timp real, PROS a realizat nevoia de:

ce este mutabil în java
  • Un cache distribuit, care este extrem de disponibil.
  • Ușor scalabil.
  • Cu o arhitectură fără maestru.
  • Cu replicare de date aproape în timp real chiar și în centre de date.
  • Acest lucru poate face față citirilor și scrierilor în timp real.

PROS a evaluat Cassandra împotriva Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort și Redis. Apache Cassandra a ajuns destul de ușor în fruntea listei.

PROS și Cassandra

  • PROS folosește Cassandra ca bază de date distribuită pentru servicii de latență redusă, cu randament ridicat, care gestionează sarcini de lucru în timp real, care conțin sute de actualizări pe secundă și zeci de mii de citiri pe secundă.
  • De exemplu, au un serviciu în timp real care calculează dinamic disponibilitatea companiei aeriene, luând în considerare datele privind controlul veniturilor și nivelurile de inventar care se pot schimba de multe sute de ori pe secundă. Acest serviciu este interogat de câteva mii de ori pe secundă, ceea ce se traduce prin zeci de mii de căutări de date. Stratul lor de stocare pentru acest serviciu este Cassandra. Unele dintre ofertele lor SaaS folosesc Cassandra ca magazin backend pentru a gestiona o combinație de sarcini de lucru în timp real și bazate pe Hadoop.
  • Vorbind despre Hadoop și Cassandra, ei scot datele din Cassandra și le introduc în Hadoop și rulează lot și analize despre asta, iar apoi acestea revin în Cassandra. Acest lucru se realizează prin integrarea Hadoop a Cassandrei.
  • Locurile de muncă Hadoop extrag date din Cassandra, aplică transformări sau analize specifice posturilor și împing datele înapoi în Cassandra. Nu folosesc ediția Enterprise Datastax (Cassandra Maintainer oficială) pentru această integrare, ci doar instalarea open source Hadoop cu Cassandra.

Modelarea datelor cu Cassandra:

Când căutați să înlocuiți un depozit cheie-valoare cu ceva mai capabil de replicare în timp real și de distribuire a datelor, cercetările privind Dynamo, teorema CAP și eventualul model de consistență arată că Cassandra se potrivește destul de bine acestui model. Pe măsură ce aflăm mai multe despre capacitățile de modelare a datelor, ne îndreptăm treptat spre descompunerea datelor.

Dacă cineva provine dintr-o bază de date relațională cu o puternică semantică ACID, atunci trebuie să vă alocați timp pentru a înțelege eventualul model de consistență.

Înțelegeți foarte bine arhitectura Cassandrei și ce face sub capotă. Cu Cassandra 2.0 obțineți tranzacții și declanșatoare ușoare, dar acestea nu sunt aceleași cu tranzacțiile de bază de date tradiționale cu care s-ar putea să fie familiarizați. De exemplu, nu există restricții privind cheile străine disponibile - trebuie să fie gestionate de propria aplicație. Înțelegerea cazurilor de utilizare și a modelelor de acces la date înainte de modelarea datelor cu Cassandra și citirea tuturor documentelor disponibile este o necesitate.

Concluzie:

Apache Cassandra evoluează rapid și îi învățăm și înțelegem capacitățile - în special în ceea ce privește modelarea datelor. O vedem ca o bază de date NoSQL distribuită la alegere pentru serviciile și soluțiile noastre Big Data.

Edureka oferă un cuprinzător pentru cei care doresc să devină cercetător în date. Cursul acoperă o gamă de tehnici Hadoop, R și de învățare automată, cuprinzând studiul complet al științei datelor. Edureka oferă, de asemenea care vă ajută să stăpâniți bazele de date NoSQL. Acest curs este conceput pentru a oferi cunoștințe și abilități pentru a deveni un expert Cassandra de succes.