Python de recunoaștere a vorbirii: Cum se traduce vorbirea în text?



Acest blog acoperă conceptul de recunoaștere a vorbirii în python cu un exemplu de program care traduce vorbirea în text folosind recunoașterea vorbirii.

Vorbirea este cel mai comun mijloc de comunicare din întreaga lume. Majoritatea populației din lume se bazează pe vorbire pentru a comunica între ei. Să presupunem că construim un model și, în loc de o abordare scrisă, dorim ca sistemul nostru să răspundă la vorbire, acesta devine destul de dificil și necesită o mulțime de date pentru a fi procesate. Un sistem de recunoaștere a vorbirii depășește această barieră prin traducerea vorbirii în text. În acest blog, vom trece prin recunoașterea vorbirii modul în python . Iată lista aceluiași:

Cum funcționează recunoașterea vorbirii?

Sistemul de recunoaștere a vorbirii traduce în esență enunțurile vorbite în text. Există diferite exemple din viața reală a sistemului de recunoaștere a vorbirii. De exemplu, siri, care ia vorbirea ca intrare și o traduce în text.





Avantajul utilizării unui sistem de recunoaștere a vorbirii este că depășește bariera alfabetizării. Un model de recunoaștere a vorbirii poate servi și publicului alfabetizat și analfabet, de asemenea, deoarece se concentrează pe enunțuri vorbite.

java cast string până în prezent

De asemenea, putem face un inventar al tuturor limbilor pe cale de dispariție din întreaga lume folosind un sistem de recunoaștere a vorbirii. Deși pare destul de interesant și deloc complex, un sistem de recunoaștere a vorbirii se confruntă cu multe provocări.



Provocări cu care se confruntă o recunoaștere a vorbirii Sistem

Un sistem de recunoaștere a vorbirii devine dificil de realizat, deoarece avem atâtea surse de variabilitate când vine vorba de vorbire.

Stilul de a vorbi

Fiecare persoană are un stil variat de a vorbi, inclusiv accente. După cum știm cu toții, avem accente diferite și pentru a vorbi engleză. Există engleză americană, engleză britanică și atât de multe alte accente atunci când vine vorba de a vorbi cea mai comună limbă din lume. Pronunția face, de asemenea, dificil pentru un sistem de recunoaștere a vorbirii să traducă total vorbirea.



Mediu inconjurator

Mediul adaugă mult sistem de zgomot de fundal. O cameră izolată în comparație cu un auditoriu va avea mult o variabilitate a zgomotelor de fundal. Chiar și ecoul poate adăuga mult zgomot și în sistem.

Caracteristicile difuzorului

Este posibil ca vocea unei persoane în vârstă să nu fie aceeași cu cea a unui sugar. Caracteristicile vorbirii unei persoane depind de mulți factori, inclusiv duritatea și claritatea.

Constrângeri lingvistice

Este posibil ca unele enunțuri vorbite să nu aibă o semnificație viabilă atunci când vine vorba de traducere.

După depășirea acestor provocări, este destul de realizabil ca orice sistem de recunoaștere a vorbirii să traducă vorbirea în text. Acum, că știm cum funcționează recunoașterea vorbirii, să aruncăm o privire diferită care sunt disponibile pentru recunoașterea vorbirii în python.

Pachete disponibile pentru recunoașterea vorbirii în python

  • apiai

  • Recunoaștere a vorbirii

  • Google_speech_cloud

  • assemblyai

  • Buzunar

  • Watson_developer_cloud

  • alb

Vom trece prin detaliile pachetului SpeechRecognition din acest blog, să aruncăm și o privire pe banda de memorie pentru a înțelege cum au evoluat sistemele de recunoaștere a vorbirii de-a lungul anilor.

implementarea cozii prioritare în java

Primul prototip al recunoașterii vorbirii a fost de fapt o jucărie, numită radio rex care a venit în jurul anilor 1920. Avea un câine care stătea într-o casă pentru câini, care avea să apară imediat ce cineva rostea cuvântul rex.

Singura problemă cu modelul a fost că arcul a fost atașat la un electromagnet care era sensibil la energie variind în jur de 500 Hz. Fiind pur un detector de frecvență, ar putea fi denumit de la distanță ca un model de recunoaștere a vorbirii.

În 1962, IBM a venit cu un cutie de pantofi model care a fost capabil să recunoască cuvinte izolate și să efectueze, de asemenea, câteva operații aritmetice.

Apoi a venit HARPIE de la CMU, care a fost capabil să recunoască vorbirea conectată dintr-un vocabular de 1000 de cuvinte. În jurul anilor 1980, oamenii au început să folosească modele statistice și una dintre cele mai utilizate paradigme de învățare automată a fost modelul ascuns de markov.

După introducerea rețelelor neuronale profunde, majoritatea modelelor de recunoaștere a vorbirii funcționează pe rețelele neuronale. Posibilitățile sunt de neimaginat cu rețelele neuronale, vocabularul poate merge până la 10.000 de cuvinte și multe altele.

Cum se instalează SpeechRecognition în Python?

Pentru a instala pachetul SpeechRecognition este python, rulați următoarea comandă în terminal și va fi instalată pe sistemul dvs.

instalare-recunoaștere vorbire python-edureka

O altă abordare în acest sens, poate fi adăugarea pachetului de la interpretul de proiect, dacă utilizați

Pachetul are o clasă de recunoaștere, care este practic locul unde se întâmplă magia. Este practic o clasă care este folosită pentru a recunoaște vorbirea. Următoarele sunt șapte metode care pot citi diverse surse audio folosind diferite API-uri.

  • recogn_bing ()
  • recogn_google ()
  • recogn_google_cloud ()
  • recunoaște_houndify ()
  • recogn_ibm ()
  • recunoaște_wit ()
  • recunosc_sfinx ()

Acum, recogn_sphinx poate fi folosit pentru a rula sistemul de recunoaștere a vorbirii și offline. Necesită instalarea Pocketsphinx.

import recunoaștere vocală ca sr #instanță a clasei de recunoaștere r = sr.Recognizer ()

Preluarea de date de la microfoane

Pentru a utiliza microfoanele, va trebui să instalăm și modulul pyaudio. Folosim clasa de microfon pentru a obține vocea de intrare de la microfon în locul oricărei alte metode de intrare, cum ar fi un fișier audio.

Pentru majoritatea proiectelor, putem folosi microfoanele implicite. Dar dacă nu doriți să utilizați microfonul implicit,puteți obține lista numelor de microfoane utilizând metoda list_microphone_names.

Pentru a captura intrarea de la microfon folosim metoda de ascultare.

import recunoaștere vocală ca sr r = sr.Recognizer () cu sr.Microphone () ca sursă: audio = sr.listen (sursă)

Cum se instalează Pyaudio în Python?

Pentru a instala Pyaudio în python, rulați următoarea comandă în terminal sau, dacă utilizați pycharm, adăugați pachetul din interpretul de proiect în setări.

pl sql pentru începători cu exemple

Utilizare caz

Vom realiza un program folosind modulul de recunoaștere a vorbirii în python pentru a recunoaște vorbirea și a executa următoarele:

  1. converti discursul în text
  2. deschideți o adresă URL utilizând modulul webbrowser
  3. treceți o interogare folosind recunoașterea vocală pentru a efectua o căutare în adresa URL

Următorul este programul pentru afirmația problemă de mai sus:

importați recunoașterea vorbirii ca sr print ('speak now') audio = r3.listen (source) if 'edureka' in r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' with sr .Microphone () ca sursă: print („căutați interogarea dvs.”) audio = r2.listen (sursă) try: get = r2.recognize_google (audio) print (get) wb.get (). Open_new (url + get) cu excepția sr.UnknownValueError: print ('error') cu excepția sr.RequestError ca e: print ('failed'.format (e)) dacă' video 'în r1.recognize_google (audio): r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'cu sr.Microphone () ca sursă: print (' căutare video ') audio = r2.listen (sursă) try: get = r1.recognize_google (audio ) print (get) wb.get (). open_new (url + get) cu excepția sr.UnknownValueError: print („nu s-a putut înțelege”) cu excepția sr.RequestError ca e: print (nu s-au obținut rezultate ”. )

Veți obține ieșirea așa cum se arată în imagine. Dacă spuneți edureka, vă va solicita să spuneți interogarea pe care doriți să o căutați în adresa URL edureka pe care am scris-o în variabila URL. Dacă spuneți python, veți obține următoarea pagină web deschisă în browser.

În acest blog, am discutat despre modul în care putem folosi recunoașterea vorbirii în python pentru a traduce vorbirea în text folosind pachetul de recunoaștere a vorbirii. a devenit nevoia orei pentru concepte precum recunoașterea vorbirii sau deprimarea obiectelor, cu care oferă posibilități inimaginabile sistemelor de recunoaștere a vorbirii în care putem antrena și testa date enorme de vorbire pentru a construi un sistem. Vă puteți înscrie în pentru ca rețelele neuronale profunde să vă stăpânească abilitățile și să vă înceapă învățarea

aveți întrebări? menționează-le în comentarii, vom reveni la tine.