Tehnici de modelare în analiza afacerii cu R



Blogul oferă o scurtă introducere a tehnicilor de modelare în Business Analytics cu R.

Diferite tehnici de modelare:

Putem împărți orice problemă în procese mai mici:





Clasificare - este, unde clasificăm datele. De exemplu. boli toate bolile prezintă un anumit comportament și le putem clasifica în continuare.

De exemplu: boli care reduc imunitatea, boli care produc cefalee etc.



Regresie - presupune aflarea relației dintre mai multe variabile.

De exemplu: cum este legată greutatea unei ființe umane de înălțimea sa.

AnomolieDetectare - este practic o fluctuație.



De exemplu: În cazul tensiunii înalte sau joase.

Un alt exemplu ar putea include un comportament reglementat care implică conducerea în partea dreaptă sau în partea stângă în funcție de țară. Anomolia de aici este cineva care conduce din opus.

diferența dintre trecerea prin valoare și trecerea prin referință în java

Un alt exemplu ar putea fi intruziunea în rețea. Aici, un utilizator autentificat se conectează la site-ul companiei dvs. și, dacă cineva se autentifică neautentificat, este unAn0moly.

Importanța atributului - Practic oferă mai multe atribute, cum ar fi înălțimea, greutatea, temperatura, bătăile inimii. Un punct de remarcat este că toate aceste atribute sunt importante pentru o sarcină.

De exemplu: cineva încearcă să prezică, la ce oră o persoană va ajunge la birou. Fiecare atribut joacă un rol important, dar nu toate atributele sunt importante.

Regulile de asociere - În termeni mai simpli, este de a analiza sau de a prezice următorul comportament, în cazul în care acesta se învârte în jurul motorului de recomandare.

De exemplu: O persoană care cumpără pâine poate cumpăra și lapte. Dacă analizăm comportamentele de cumpărături din trecut, toate articolele din coș au o relație. În acest caz, ar putea exista probabilitatea ca persoana care cumpără pâine să cumpere și lapte.

Clustering - Este una dintre cele mai vechi tehnici din statistici. De fapt, oricând se poate modela orice problemă, fie că este vorba de clasificare sau grupare, ceea ce înseamnă gruparea entităților similare.

De exemplu:

1) Luați un coș cu mere și portocale, în care putem separa merele de portocale.

2) Un caz de utilizare important pentru grupare este asistența medicală. Aproape toate statisticile și analizele au început cu cazuri de utilizare a asistenței medicale. Pentru a merge mai adânc, există un termen de grupare numit cohorte (persoane cu boli similare), astfel încât acestea să poată fi studiate separat de clienții existenți. De exemplu, dacă 10 persoane suferă de febră și alte 10 persoane suferă de cefalee, vom găsi ceea ce este comun între ele și vom genera medicamente.

Extragerea caracteristicilor - În extragerea caracteristicilor, precizia, validitatea și eșecul sunt destul de relevante. Cu alte cuvinte, extragerea caracteristicilor poate fi denumită recunoaștere tipar.

De exemplu:

În căutarea Google, atunci când un utilizator introduce un termen, acesta dă rezultate. Acum, o întrebare importantă care trebuie pusă este cum a știut, ce pagină este relevantă și nerelevantă pentru termen? Acest lucru poate fi răspuns cu extragerea caracteristicilor și recunoașterea modelelor, unde adaugă caracteristici proeminente. Să spunem că este dată o fotografie, anumite camere detectează fețe, evidențiază fața pentru a oferi imagini frumoase, care folosește și recunoașterea caracteristicilor.

tablou de date amestecarea stânga

Învățare supravegheată vs învățare nesupravegheată

la) Categoria de predicție - Tehnicile includ regresia, logistica, rețelele neuronale și arborii de decizie. Câteva exemple includ detectarea fraudelor (în cazul în care un computer învață și prezice următoarea fraudă din istoricul anterior de fraudă). În învățarea nesupravegheată, nu se poate prezice cu exemple, deoarece nu există date istorice.

b) Categorie de clasificare - Luând un exemplu, indiferent dacă tranzacția este sau nu frauduloasă, aceasta intră în categoria de clasificare. Aici, luăm date istorice și le clasificăm cu arbori de decizie sau, în cazul în care nu luăm deloc date istorice, atunci începem direct datele și încercăm să exploatăm caracteristicile pe cont propriu. De exemplu, dacă trebuie să cunoaștem angajații, care sunt susceptibili să părăsească organizația sau să rămână. În cazul în care este o organizație nouă, în care nu putem folosi date istorice, putem folosi întotdeauna clusterizarea pentru extragerea datelor.

c) Categorie de explorare - Aceasta este o metodă directă, care vine cu ceea ce înseamnă big data. În învățarea nesupravegheată, se numește componente principale și grupare.

d) Categorie de afinitate - aici sunt implicate mai multe elemente, cum ar fi vânzarea încrucișată / vânzarea în sus, analiza coșului de piață. În analiza coșului, nu există învățare supravegheată, deoarece nu există date istorice. Deci, luăm date direct și găsim asociații, secvențierea și analiza factorilor.

Ai o întrebare pentru noi? Menționați-le în secțiunea de comentarii și vă vom răspunde.

Postări asemănatoare: