Apache Flink: Cadrul de analiză Big Data pentru următoarea generație pentru procesarea datelor în flux și în lot



Aflați totul despre Apache Flink și configurarea unui cluster Flink în acest blog. Flink acceptă procesarea în timp real și în serie și este o tehnologie obligatorie Big Data pentru Big Data Analytics.

Apache Flink este o platformă open source pentru procesarea de date distribuite în flux și lot. Poate rula pe sisteme de operare Windows, Mac OS și Linux. În această postare de blog, să discutăm despre cum să configurați clusterul Flink la nivel local. Este similar cu Spark din multe puncte de vedere - are API-uri pentru procesarea grafică și de învățare automată precum Apache Spark - dar Apache Flink și Apache Spark nu sunt exact aceleași.





Pentru a configura clusterul Flink, trebuie să aveți instalat java 7.x sau o versiune ulterioară pe sistemul dvs. Deoarece am instalat Hadoop-2.2.0 la sfârșitul meu pe CentOS (Linux), am descărcat pachetul Flink care este compatibil cu Hadoop 2.x. Rulați comanda de mai jos pentru a descărca pachetul Flink.

Comanda: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Deconectați fișierul pentru a obține directorul flink.

Comanda: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Comanda: eu sunt

Adăugați variabile de mediu Flink în fișierul .bashrc.

Comanda: sudo gedit .bashrc

Trebuie să rulați comanda de mai jos, astfel încât modificările din fișierul .bashrc să fie activate

Comanda: sursa .bashrc

Acum accesați directorul Flink și porniți clusterul local.

clauza uniunii este obișnuită

Comanda: cd hefty-1.0.0

Comanda: bin / start-local.sh

program de sortare a selecției în java

După ce ați pornit clusterul, veți putea vedea un nou daemon JobManager care rulează.

Comanda: jps

Deschideți browserul și accesați http: // localhost: 8081 pentru a vedea interfața web Apache Flink.

Să rulăm un exemplu simplu de numărare de cuvinte folosind Apache Flink.

Înainte de a rula exemplul, instalați netcat pe sistemul dvs. (sudo yum install nc).

Acum într-un nou terminal executați comanda de mai jos.

Comanda: nc -lk 9000

Rulați comanda dată mai jos în terminalul Flink. Această comandă execută un program care ia datele transmise ca intrare și efectuează operația de numărare de cuvinte pe acele date transmise.

Comanda: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

În interfața web, veți putea vedea o lucrare în stare de rulare.

Rulați comanda de mai jos într-un terminal nou, aceasta va imprima datele transmise în flux și procesate.

Comanda: tail -f log / flink - * - jobmanager - *. out

Acum du-te la terminalul de unde ai pornit netcat și tastează ceva.

În momentul în care apăsați butonul Enter pe cuvântul cheie după ce ați tastat unele date pe terminalul netcat, operația de numărare a cuvintelor va fi aplicată asupra acestor date și ieșirea va fi tipărită aici (jurnalul Flink’s jobmanager) în câteva milisecunde!

Într-un interval foarte scurt de timp, datele vor fi transmise în flux, procesate și tipărite.

Există multe mai multe de învățat despre Apache Flink. Vom aborda alte subiecte Flink în viitorul nostru blog.

cum să alertezi în javascript

Ai o întrebare pentru noi? Menționați-le în secțiunea de comentarii și vă vom răspunde.

Postări asemănatoare:

Apache Falcon: nouă platformă de gestionare a datelor pentru ecosistemul Hadoop