Tutorial Python Pandas: Aflați Pandas pentru analiza datelor



În acest tutorial Python Pandas, veți învăța diferitele operațiuni ale Pandelor. De asemenea, include un caz de utilizare, unde puteți analiza datele folosind Pandas.

În acest blog, vom discuta despre analiza datelor folosind Pandas în Python.Astăzi, este o abilitate fierbinte din industrie care a depășit PHP în 2017 și C # în 2018 în ceea ce privește popularitatea generală și utilizarea.Înainte de a vorbi despre panda, trebuie să înțelegem conceptul de matrice Numpy. De ce? Deoarece Pandas este o bibliotecă software open source care este construită deasupra . În acest tutorial Python Pandas, vă voi prezenta următoarele subiecte, care vor servi drept elemente fundamentale pentru blogurile viitoare:

Să începem. :-)





Ce este Python Pandas?

Pandas este utilizat pentru manipularea, analiza și curățarea datelor. Panda Python este potrivit pentru diferite tipuri de date, cum ar fi:

  • Date tabulare cu coloane tipizate heterogen
  • Date de serie temporale comandate și neordonate
  • Date matriciale arbitrare cu etichete de rânduri și coloane
  • Date neetichetate
  • Orice altă formă de seturi de date observaționale sau statistice

Cum se instalează Pandas?

Pentru a instala Python Pandas, accesați linia de comandă / terminal și tastați „pip install pandas” sau altfel, dacă aveți anaconda instalat în sistemul dvs., tastați doar „conda install pandas”. Odată ce instalarea este finalizată, accesați IDE-ul dvs. (Jupyter, PyCharm etc.) și pur și simplu importați-l tastând: „import pandas as pd”



cum se convertește o dublă la un int în java

Trecând mai departe în tutorialul Python panda, să aruncăm o privire la câteva dintre operațiunile sale:

Operațiuni Python Pandas

Folosind panda Python, puteți efectua o mulțime de operații cu serii, cadre de date, date lipsă, grupare după etc. Unele dintre operațiile obișnuite pentru manipularea datelor sunt enumerate mai jos:



Operații Pandas - Tutorial Pandas Python - Edureka

Acum, să înțelegem toate aceste operații una câte una.

Felierea cadrului de date

Pentru a efectua tranșarea datelor, aveți nevoie de un cadru de date. Nu vă faceți griji, cadrul de date este o structură de date bidimensională și cel mai obișnuit obiect pandă. Deci, mai întâi, să creăm un cadru de date.

Consultați codul de mai jos pentru implementarea acestuia în PyCharm:

importați panda ca pd XYZ_web = {'Ziua': [1,2,3,4,5,6], 'Vizitatori': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) print (df)

Ieșire :

Bounce_Rate Day Vizitatori 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

Codul de mai sus va converti un dicționar într-un cadru de date pandas împreună cu indexul din stânga. Acum, haideți să separăm o anumită coloană din acest cadru de date. Consultați imaginea de mai jos:

print (df.head (2))

Ieșire:

Bounce_Rate Day Visitors 0 20 1 1000 1 20 2 700

În mod similar, dacă doriți ultimele două rânduri de date, tastați comanda de mai jos:

print (df.tail (2))

Ieșire:

Vizitatori din ziua Bounce_Rate 4 10 5 400 5 34 6 350

În continuare, în tutorialul Python Pandas, permiteți-ne să îmbinăm și să ne alăturăm.

Fuziune și alăturare

La îmbinare, puteți îmbina două cadre de date pentru a forma un singur cadru de date. De asemenea, puteți decide ce coloane doriți să faceți comune. Permiteți-mi să pun în aplicare acest lucru practic, mai întâi voi crea trei cadre de date, care au câteva perechi cheie-valoare și apoi am uni cadrele de date împreună. Consultați codul de mai jos:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Ieșire:

importați panda ca pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, index = [2005, 2006,2007,2008]) fusion = pd.merge (df1, df2) print (combinat)

După cum puteți vedea mai sus, cele două cadre de date s-au contopit într-un singur cadru de date. Acum, puteți specifica și coloana pe care doriți să o faceți comună. De exemplu, vreau ca coloana „HPI” să fie comună și pentru orice altceva, vreau coloane separate. Deci, permiteți-mi să implementez acest lucru practic:

java cum se creează o matrice de obiecte
df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) combinat = pd.merge (df1, df2, on = 'HPI') print (combinat)

Ieșire:

IND_GDP Int_Rate Low_Tier_HPI Șomaj 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Apoi, să ne înțelegem alăturându-se în tutorialul panda piton. Este încă o altă metodă convenabilă de a combina două cadre de date indexate diferit într-un singur cadru de date rezultat. Aceasta este destul de asemănătoare cu operațiunea „fuzionare”, cu excepția faptului că operațiunea de asociere va fi pe „index” în loc de „coloane”. Să-l implementăm practic.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Șomaj': [1,3,5,6]}, index = [2001, 2003,2004,2004]) join = df1. join (df2) print (join)

Ieșire:

IND_GDP Int_Rate Low_Tier_HPI Șomaj 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

După cum puteți observa în rezultatul de mai sus, în anul 2002 (index), nu există nicio valoare atașată coloanelor „low_tier_HPI” și „șomaj”, prin urmare a imprimat NaN (Not a Number). Mai târziu în 2004, ambele valori sunt disponibile, prin urmare a imprimat valorile respective.

Puteți parcurge această înregistrare a tutorialului Python Pandas, unde instructorul nostru a explicat subiectele într-o manieră detaliată, cu exemple care vă vor ajuta să înțelegeți mai bine acest concept.

Python pentru analiza datelor | Tutorial Python Pandas | Antrenament Python | Edureka


Mergând mai departe în tutorialul Python panda, să înțelegem cum să concatenăm două cadre de date.

Concatenare

Concatenarea lipeste practic cadrele de date. Puteți selecta dimensiunea pe care doriți să o concatenați. Pentru aceasta, pur și simplu utilizați „pd.concat” și treceți în lista cadrelor de date pentru a concatena împreună. Luați în considerare exemplul de mai jos.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

Ieșire:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

După cum puteți vedea mai sus, cele două cadre de date sunt lipite împreună într-un singur cadru de date, unde indexul începe din 2001 până în 2008. Apoi, puteți specifica și axa = 1 pentru a vă alătura, îmbina sau anula de-a lungul coloanelor. Consultați codul de mai jos:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], axis = 1) print (concat)

Ieșire:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80,0 50,0 2,0 NaN NaN NaN 2002 90,0 45,0 1,0 NaN NaN NaN 2003 70,0 45,0 2,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2005 NaN NaN NaN 80,0 50,0 2,0 2006 NaN NaN NaN 90,0 45,0 1,0 2007 Na NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

După cum puteți mai sus, există o grămadă de valori lipsă. Acest lucru se întâmplă deoarece cadrele de date nu au valori pentru toți indexurile pe care doriți să le concatenați. Prin urmare, ar trebui să vă asigurați că aveți toate informațiile aliniate corect atunci când vă alăturați sau concatenați pe axă.

Schimbați indexul

În continuare, în tutorialul Python pandas, vom înțelege cum se modifică valorile indexului într-un cadru de date. De exemplu, permiteți-ne să creăm un cadru de date cu câteva perechi de valori cheie într-un dicționar și să schimbăm valorile indexului. Luați în considerare exemplul de mai jos:

Să vedem cum se întâmplă de fapt:

importați panda ca pd df = pd.DataFrame ({„Ziua”: [1,2,3,4], „Vizitatori”: [200, 100,230,300], „Bounce_Rate”: [20,45,60,10]}) df.set_index ('Day', inplace = True) print (df)

Ieșire:

Bounce_Rate Vizitatori Ziua 1 20 200 2 45 100 3 60 230 4 10 300

După cum puteți observa în rezultatul de mai sus, valoarea indexului a fost modificată în raport cu coloana „Ziua”.

ce este o metodă în javascript

Schimbați antetele coloanei

Să schimbăm acum antetele coloanei din acest tutorial Python panda. Să luăm același exemplu, unde voi schimba antetul coloanei din „Vizitatori” în „Utilizatori”. Deci, permiteți-mi să-l implementez practic.

importați panda ca pd df = pd.DataFrame ({„Ziua”: [1,2,3,4], „Vizitatori”: [200, 100,230,300], „Bounce_Rate”: [20,45,60,10]}) df = df.rename (coloane = {'Vizitatori': 'Utilizatori'}) print (df)

Ieșire:

Bounce_Rate Day Utilizatori 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

După cum vedeți mai sus, antetul coloanei „Vizitatori” a fost schimbat în „Utilizatori”. În continuare, în tutorialul Python pandas, permiteți-ne să realizăm îmbinarea datelor.

Date Munging

În Data munging, puteți converti anumite date într-un format diferit. De exemplu, dacă aveți un fișier .csv, îl puteți converti în .html sau în orice alt format de date. Deci, permiteți-mi să implementez acest lucru practic.

importați panda ca pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth -ploymentAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

După ce rulați acest cod, va fi creat un fișier HTML numit „edu.html”. Puteți copia direct calea fișierului și lipiți-o în browserul dvs., care afișează datele într-un format HTML. Consultați captura de ecran de mai jos:


Următorul tutorial Python panda, să aruncăm o privire la un caz de utilizare care vorbește despre șomajul global al tinerilor.

Tutorial Python Pandas: Caz de utilizare pentru a analiza datele despre șomajul tinerilor

Declarație problemă :Vi se oferă un set de date care cuprinde procentul de tineri șomeri la nivel global din 2010 până în 2014. Trebuie să utilizați acest set de date și să găsiți modificarea procentului de tineri pentru fiecare țară din 2010-2011.

Mai întâi, permiteți-ne să înțelegem setul de date care conține coloanele ca nume de țară, cod de țară și anul 2010 - 2014. Acum folosind panda, vom folosi „pd.read_csv” pentru a citi fișierul în format de fișier .csv.
Consultați captura de ecran de mai jos:

Să mergem mai departe și să efectuăm analize de date în care vom afla schimbarea procentuală a tinerilor șomeri între 2010 și 2011. Apoi, vom vizualiza aceleași folosind biblioteca, care este o bibliotecă puternică pentru vizualizare în Python. Poate fi folosit în scripturi Python, shell, servere de aplicații web și alte seturi de instrumente GUI. Puteți folosi mai multe informații aici:

Acum, să implementăm codul în PyCharm:

import pandas as pd import matplotlib.pyplot as plt from matplotlib style style style.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth -ploymentAPI_ILO_country_YU.csv', index_col = 0) df = country. head (5) df = df.set_index (['Codul țării']) sd = sd.reindex (coloane = ['2010', '2011']) db = sd.diff (axis = 1) db.plot (kind = 'bar') plt.show ()

După cum puteți vedea mai sus, am efectuat analiza pe primele 5 rânduri ale cadrului de date al țării. Apoi, am definit o valoare a indexului care să fie „Codul țării” și apoi reindexează coloana în 2010 și 2011. Apoi, mai avem încă un cadru de date db, care imprimă diferența dintre cele două coloane sau modificarea procentuală a tinerilor șomeri. din 2010 până în 2011. În cele din urmă, am trasat un barplot folosind biblioteca Matplotlib din Python.


Acum, dacă ați observat în complotul de mai sus, în Afganistan (AFG) între 2010 și 2011, a existat o creștere a tinerilor șomeri de aprox. 0,25%. Apoi, în Angola (AGO), există o tendință negativă, ceea ce înseamnă că procentul de tineri șomeri a fost redus. În mod similar, puteți efectua analize pe diferite seturi de date.

Sper că blogul meu despre „Python Pandas Tutorial” a fost relevant pentru dvs. Pentru a obține cunoștințe aprofundate despre Python împreună cu diferitele sale aplicații, vă puteți înscrie pentru live de Edureka cu suport 24/7 și acces pe viață.

Ai o întrebare pentru noi? Vă rugăm să menționați acest lucru în secțiunea de comentarii a acestui blog „Tutorial Python Pandas” și vă vom contacta cât mai curând posibil.