Kalbos atpažinimas naudojant „Google Speech“API ir „Python“: 4 veiksmai

Turinys:

1 veiksmas: „ReSpeaker“USB 4 mikrofonų masyvas
2 veiksmas: įdiekite reikalingas bibliotekas
3 veiksmas: teksto į kalbą naudojimas „Python“naudojant „Pyttsx3“biblioteką
4 veiksmas: visa tai kartu: kalbos atpažinimo kūrimas naudojant „Python“naudojant „Google“kalbos atpažinimo API ir „Pyttsx3“biblioteką

2025 Autorius: John Day | [email protected]. Paskutinį kartą keistas: 2025-01-23 14:59

Kalbos atpažinimas

Kalbos atpažinimas yra natūralios kalbos apdorojimo dalis, kuri yra dirbtinio intelekto dalis. Paprasčiau tariant, kalbos atpažinimas yra kompiuterinės programinės įrangos gebėjimas atpažinti žodžius ir frazes šnekamąja kalba ir paversti juos žmogaus skaitomu tekstu. Jis naudojamas keliose programose, tokiose kaip balso pagalbinės sistemos, namų automatika, balso pokalbių robotai, balso sąveikaujantis robotas, dirbtinis intelektas ir kt.

Kalbai atpažinti yra skirtingos API (programų programavimo sąsaja). Jie siūlo nemokamas arba mokamas paslaugas. Šitie yra:

CMU sfinksas
„Google“kalbos atpažinimas
„Google Cloud Speech“API
Wit.ai
„Microsoft Bing“balso atpažinimas
„Houndify“API
IBM kalba į tekstą
„Snowboy Hotword“aptikimas

Čia naudosime „Google“kalbos atpažinimą, nes tam nereikia jokio API rakto. Šios pamokos tikslas yra pristatyti, kaip naudotis „Google“kalbos atpažinimo biblioteka „Python“naudojant išorinį mikrofoną, pvz., „ReSpeaker USB 4-Mic Array“iš „Seeed Studio“. Nors neprivaloma naudoti išorinio mikrofono, galima naudoti net įmontuotą nešiojamojo kompiuterio mikrofoną.

1 veiksmas: „ReSpeaker“USB 4 mikrofonų masyvas

„ReSpeaker USB Mic“yra keturių mikrofonų įrenginys, skirtas AI ir balso programoms, kurį sukūrė „Seeed Studio“. Jame yra 4 didelio našumo, įmontuoti įvairios krypties mikrofonai, skirti priimti jūsų balsą iš bet kurios kambario vietos, ir 12 programuojamų RGB LED indikatorių. „ReSpeaker“USB mikrofonas palaiko „Linux“, „MacOS“ir „Windows“operacines sistemas. Išsamią informaciją rasite čia.

„ReSpeaker USB Mic“yra gražioje pakuotėje, kurioje yra šie elementai:

Vartotojo vadovas
„ReSpeaker“USB mikrofono masyvas
Kabelis iš „Micro USB“į USB

Taigi mes pasiruošę pradėti.

2 veiksmas: įdiekite reikalingas bibliotekas

Šioje pamokoje darysiu prielaidą, kad naudojate „Python 3.x“.

Įdiekime bibliotekas:

pip3 įdiegti „SpeechRecognition“

Jei naudojate „MacOS“, pirmiausia turėsite įdiegti „PortAudio“naudodami „Homebrew“, o tada įdiegti „PyAudio“naudodami „pip3“:

užvirinti įdiegti portaudio

Vykdome žemiau esančią komandą, kad įdiegtume „pyaudio“

pip3 įdiegti pyaudio

„Linux“galite įdiegti „PyAudio“naudodami apt:

sudo apt-get įdiegti python-pyaudio python3-pyaudio

„Windows“sistemoje galite įdiegti „PyAudio“naudodami pip:

pip install pyaudio

Sukurkite naują „Python“failą

nano get_index.py

Įklijuokite get_index.py žemiau esančiame kodo fragmente:

importuoti pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount'), esantis diapazone (0, skaitiniai įrenginiai): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInput '))> 0: print ("Įvesties įrenginio ID", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' pavadinimas '))

Vykdykite šią komandą:

python3 get_index.py

Mano atveju komanda ekrane pateikia tokią išvestį:

Įvesties įrenginio ID 1 - „ReSpeaker 4 Mic Array“(UAC1.0)

Įvesties įrenginio ID 2 - „MacBook Air“mikrofonas

Žemiau esančiame kodo fragmente pakeiskite „device_index“į indekso numerį.

importuoti kalbos_atpažinimą kaip sr

r = sr. Atpažinimo priemonė () kalba = sr. Mikrofonas (įrenginio_indeksas = 1) su kalba kaip šaltiniu: spausdinti („ką nors pasakyti!…“) garso įrašas = r.adjust_for_ambient_noise (šaltinis) garso įrašas = r.recognize_google (audio, language = 'en-US') print ("Jūs sakėte:" + recog), išskyrus sr. UnknownValueError: print ("Google Speech Recognition negalėjo suprasti garso"), išskyrus sr. RequestError as e: print („Nepavyko pateikti rezultatų iš„ Google “kalbos atpažinimo paslaugos; {0}“. Formatas (e))

Įrenginio indeksas pasirinktas 1, nes „ReSpeaker 4 Mic Array“bus pagrindinis šaltinis.

3 veiksmas: teksto į kalbą naudojimas „Python“naudojant „Pyttsx3“biblioteką

Yra keletas API, skirtų tekstui konvertuoti į kalbą „python“. Viena iš tokių API yra pyttsx3, kuri, mano nuomone, yra geriausias turimas teksto į kalbą paketas. Šis paketas veikia „Windows“, „Mac“ir „Linux“. Patikrinkite oficialius dokumentus, kad pamatytumėte, kaip tai daroma.

Norėdami įdiegti paketą, naudokite pip.

pip įdiegti pyttsx3

Jei naudojate „Windows“, jums reikės papildomo paketo, pypiwin32, kurio reikės norint pasiekti vietinę „Windows“kalbos API.

pip įdiegti pypiwin32

Konvertuoti tekstą į kalbos python scenarijų Žemiau yra teksto į kalbą kodo fragmentas naudojant pyttsx3:

importuoti pyttsx3

variklis = pyttsx3.init ()

engine.setProperty ('rate', 150) # Greičio procentas

engine.setProperty ('tūris', 0,9) # 0-1 tomas

engine.say („Labas, pasauli!“)

engine.runAndWait ()

4 veiksmas: visa tai kartu: kalbos atpažinimo kūrimas naudojant „Python“naudojant „Google“kalbos atpažinimo API ir „Pyttsx3“biblioteką

Žemiau pateiktas kodas yra atsakingas už žmogaus kalbos atpažinimą naudojant „Google“kalbos atpažinimą ir teksto konvertavimą į kalbą naudojant „pyttsx3“biblioteką.

importuoti kalbos_atpažinimą kaip sr

importuoti pyttsx3 variklį = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('tūris', 0,9) r = sr. Recognizer () kalba = sr. Mikrofonas (device_index = 1) su kalba kaip šaltiniu: audio = r.adjust_for_ambient_noise (šaltinis) audio = r.listen (šaltinis) try: recog = r.recognize_google (audio, language = 'en-US') print ("Jūs sakėte:" + recog) engine.say (" Jūs sakėte: „ + recog“engine.runAndWait (), išskyrus sr. UnknownValueError: engine.say („„ Google “kalbos atpažinimas negalėjo suprasti garso“) engine.runAndWait (), išskyrus sr. RequestError kaip e: engine.say („Nepavyko prašyti rezultatų iš „Google“kalbos atpažinimo paslaugos; {0} ". format (e)) engine.runAndWait ()

Jis spausdina išvestį terminale. Be to, jis taip pat bus paverstas kalba.

Sakėte: Londonas yra Didžiosios Britanijos sostinė

Tikiuosi, kad dabar geriau suprantate, kaip apskritai veikia kalbos atpažinimas ir, svarbiausia, kaip tai įgyvendinti naudojant „Google“kalbos atpažinimo API su „Python“.

Jei turite klausimų ar atsiliepimų? Palikite komentarą žemiau. Sekite naujienas!

Rekomenduojamas:

Dirbtinis intelektas ir vaizdo atpažinimas naudojant „HuskyLens“: 6 žingsniai (su nuotraukomis)

Dirbtinis intelektas ir vaizdo atpažinimas naudojant „HuskyLens“: Ei, kas, vaikinai! Akarsh čia iš CETech. Šiame projekte mes pažvelgsime į „DFRobot“„HuskyLens“. Tai dirbtiniu intelektu varomas fotoaparato modulis, galintis atlikti keletą dirbtinio intelekto operacijų, tokių kaip veido atpažinimas

Kalbos atpažinimas naudojant „Arduino“(„Bluetooth“+ LCD + „Android“): 6 žingsniai

Kalbos atpažinimas naudojant „Arduino“(„Bluetooth + LCD + Android“): Šiame projekte mes atliksime kalbos atpažinimą naudodami „Arduino“, „Bluetooth“modulį (HC-05) ir LCD. sukurkime savo kalbos atpažinimo įrenginį

Veido atpažinimas ir identifikavimas - „Arduino“veido ID naudojant „OpenCV Python“ir „Arduino“.: 6 žingsniai

Veido atpažinimas ir atpažinimas | „Arduino“veido ID naudojant „OpenCV Python“ir „Arduino“.: Veido atpažinimas AKA veido ID yra viena iš svarbiausių šių dienų mobiliųjų telefonų funkcijų. Taigi, man kilo klausimas „ar galiu turėti savo„ Arduino “projekto ID“? ir atsakymas yra „taip“… Mano kelionė prasidėjo taip: 1 žingsnis: Prieiga prie mūsų

Pagalbinė kalbos problemų technologija naudojant „MakeyMakey W/ Scratch“: 4 žingsniai

Pagalbinė technologija, padedanti išspręsti kalbos problemas naudojant „MakeyMakey W/ Scratch“: mano pagalbinių technologijų įrenginys naudojamas padėti sutrikus kalbai ir ar apribojant kalbą. Tai yra. skirtas padėti mokymosi procesui

Kalbos atpažinimas: 12 žingsnių

Kalbos atpažinimo įrenginys: Sveiki visi ………. Tai yra mano antrasis pamokomas dalykas, kurį skelbiu. Taigi sveiki visi ….. Šioje instrukcijoje aš jus išmokysiu, kaip sukurti balso atpažinimo įrenginį naudojant arduino lentą. Taigi manau, kad turite patirties dirbant su arduino šernu

Kalbos atpažinimas naudojant „Google Speech“API ir „Python“: 4 veiksmai

Turinys:

Kalbos atpažinimas

1 veiksmas: „ReSpeaker“USB 4 mikrofonų masyvas

2 veiksmas: įdiekite reikalingas bibliotekas

3 veiksmas: teksto į kalbą naudojimas „Python“naudojant „Pyttsx3“biblioteką

4 veiksmas: visa tai kartu: kalbos atpažinimo kūrimas naudojant „Python“naudojant „Google“kalbos atpažinimo API ir „Pyttsx3“biblioteką

Rekomenduojamas:

Dirbtinis intelektas ir vaizdo atpažinimas naudojant „HuskyLens“: 6 žingsniai (su nuotraukomis)

Kalbos atpažinimas naudojant „Arduino“(„Bluetooth“+ LCD + „Android“): 6 žingsniai

Veido atpažinimas ir identifikavimas - „Arduino“veido ID naudojant „OpenCV Python“ir „Arduino“.: 6 žingsniai

Pagalbinė kalbos problemų technologija naudojant „MakeyMakey W/ Scratch“: 4 žingsniai

Kalbos atpažinimas: 12 žingsnių

„WiBot“: 10 žingsnių (su nuotraukomis)

Kaip padaryti „Arduino Nano“plėtros lentą „4 viename“: 4 žingsniai

ESP32 - pigus sprendimas „Circruit Debug“: 5 žingsniai

Kietojo disko laikrodis: 12 žingsnių (su nuotraukomis)

„Raspberry Pi Zero W Timelapse“skrybėlė: 5 žingsniai

Pamoka Kaip naudotis DHT11 drėgmės jutikliu: 4 žingsniai

„Bluetooth“valdomas robotų automobilis: 13 žingsnių (su nuotraukomis)

Elektroniniai visi sezonai, visos šventės, LED auskarai: 8 žingsniai (su nuotraukomis)

Elektroninis kriketo žaidimas: 24 žingsniai (su nuotraukomis)

„Pasidaryk pats“„Bluetooth“adapteris bet kokioms ausinėms: 11 žingsnių (su nuotraukomis)

Saulės energija varomas motociklų laikrodis: 5 žingsniai (su nuotraukomis)

Salės jutiklio pamoka: 5 žingsniai

Paprastos grandinės su skarda, šviesos diodu, juostele ir baterijomis: 5 žingsniai

Namuose pagamintas skaitmeninis parkas: 5 žingsniai

„RENAULT SCENIC“/ „MEGANE BOOT“UŽPAKALINIO UŽRAŠYMO GALINIO MYGTUKO PAKEITIMO MONTAVIMAS: 3 žingsniai

Trišalis laikrodis „Nixie“: 6 žingsniai (su nuotraukomis)