สารบัญ:
2025 ผู้เขียน: John Day | [email protected]. แก้ไขล่าสุด: 2025-01-13 06:58
การรู้จำเสียง
การรู้จำเสียงเป็นส่วนหนึ่งของการประมวลผลภาษาธรรมชาติซึ่งเป็นฟิลด์ย่อยของปัญญาประดิษฐ์ กล่าวง่ายๆ ก็คือ การรู้จำคำพูดคือความสามารถของซอฟต์แวร์คอมพิวเตอร์ในการระบุคำและวลีในภาษาพูดและแปลงเป็นข้อความที่มนุษย์อ่านได้ มันถูกใช้ในแอพพลิเคชั่นต่างๆ เช่น ระบบผู้ช่วยเสียง, ระบบอัตโนมัติในบ้าน, แชทบอทด้วยเสียง, หุ่นยนต์โต้ตอบด้วยเสียง, ปัญญาประดิษฐ์ และอื่นๆ
มี API ที่แตกต่างกัน (Application Programming Interface) สำหรับการจดจำคำพูด พวกเขาเสนอบริการฟรีหรือจ่ายเงิน เหล่านี้คือ:
- มช. สฟิงซ์
- การรู้จำเสียงของ Google
- Google Cloud Speech API
- Wit.ai
- การรู้จำเสียงของ Microsoft Bing
- Houndify API
- IBM Speech To Text
- Snowboy Hotword การตรวจจับ
เราจะใช้ Google Speech Recognition ที่นี่ เนื่องจากไม่ต้องใช้คีย์ API บทช่วยสอนนี้มีจุดมุ่งหมายเพื่อให้คำแนะนำเกี่ยวกับวิธีการใช้ไลบรารีการรู้จำเสียงของ Google บน Python ด้วยความช่วยเหลือของไมโครโฟนภายนอก เช่น ReSpeaker USB 4-Mic Array จาก Seeed Studio แม้ว่าจะไม่จำเป็นต้องใช้ไมโครโฟนภายนอก แต่สามารถใช้ไมโครโฟนในตัวของแล็ปท็อปได้
ขั้นตอนที่ 1: ReSpeaker USB 4-Mic Array
ReSpeaker USB Mic เป็นอุปกรณ์ไมโครโฟนสี่ตัวที่ออกแบบมาสำหรับ AI และแอปพลิเคชันเสียงซึ่งพัฒนาโดย Seeed Studio มีไมโครโฟนรอบทิศทางในตัวประสิทธิภาพสูง 4 ตัวที่ออกแบบมาเพื่อรับเสียงของคุณจากทุกที่ในห้องและไฟ LED RGB ที่ตั้งโปรแกรมได้ 12 ตัว ไมโครโฟน USB ReSpeaker รองรับระบบปฏิบัติการ Linux, macOS และ Windows รายละเอียดสามารถพบได้ที่นี่
ReSpeaker USB Mic มาในแพ็คเกจที่ดีซึ่งประกอบด้วยรายการต่อไปนี้:
- คู่มือผู้ใช้
- ReSpeaker USB Mic Array
- สายไมโคร USB เป็น USB
ดังนั้นเราจึงพร้อมที่จะเริ่มต้น
ขั้นตอนที่ 2: ติดตั้งไลบรารีที่จำเป็น
สำหรับบทช่วยสอนนี้ ฉันจะถือว่าคุณกำลังใช้ Python 3.x
มาติดตั้งไลบรารี่กันเถอะ:
pip3 ติดตั้ง SpeechRecognition
สำหรับ macOS ก่อนอื่นคุณต้องติดตั้ง PortAudio ด้วย Homebrew แล้วติดตั้ง PyAudio ด้วย pip3:
ชงติดตั้ง portaudio
เราเรียกใช้คำสั่งด้านล่างเพื่อติดตั้ง pyaudio
pip3 ติดตั้ง pyaudio
สำหรับ Linux คุณสามารถติดตั้ง PyAudio ด้วย apt:
sudo apt-get ติดตั้ง python-pyaudio python3-pyaudio
สำหรับ Windows คุณสามารถติดตั้ง PyAudio ด้วย pip:
pip ติดตั้ง pyaudio
สร้างไฟล์ python ใหม่
nano get_index.py
วางบน get_index.py ด้านล่างข้อมูลโค้ด:
นำเข้า pyaudio
p = pyaudio. PyAudio() info = p.get_host_api_info_by_index(0)numdevices = info.get('deviceCount') สำหรับฉันอยู่ในช่วง(0, numdevices): if (p.get_device_info_by_host_api_device_index(0, i).get('maxInputChannels) ')) > 0: พิมพ์ ("Input Device id ", i, " - ", p.get_device_info_by_host_api_device_index(0, i).get('name'))
รันคำสั่งต่อไปนี้:
python3 get_index.py
ในกรณีของฉัน คำสั่งให้ผลลัพธ์ต่อไปนี้ไปยังหน้าจอ:
รหัสอุปกรณ์อินพุต 1 - ReSpeaker 4 Mic Array (UAC1.0)
รหัสอุปกรณ์อินพุต 2 - ไมโครโฟน MacBook Air
เปลี่ยน device_index เป็นหมายเลขดัชนีตามที่คุณเลือกในข้อมูลโค้ดด้านล่าง
นำเข้า speech_recognition เป็น sr
r = sr. Recognizer() speech = sr. Microphone(device_index=1) with speech as source: print("say something!…") audio = r.adjust_for_ambient_noise(source) audio = r.listen(source) ลอง: recog = r.recognize_google(audio, language = 'en-US') print("คุณพูดว่า: " + recog) ยกเว้น sr. UnknownValueError: print("Google Speech Recognition ไม่เข้าใจเสียง") ยกเว้น sr. RequestError เช่น e: print ("ไม่สามารถขอผลลัพธ์จากบริการรู้จำเสียงของ Google {0}".format(e))
เลือกดัชนีอุปกรณ์ 1 เนื่องจาก ReSpeaker 4 Mic Array จะเป็นแหล่งที่มาหลัก
ขั้นตอนที่ 3: การแปลงข้อความเป็นคำพูดใน Python ด้วย Pyttsx3 Library
มี API หลายตัวที่สามารถแปลงข้อความเป็นคำพูดในไพ ธ อนได้ หนึ่งใน API ดังกล่าวคือ pyttsx3 ซึ่งเป็นแพ็คเกจแปลงข้อความเป็นคำพูดที่ดีที่สุดในความคิดของฉัน แพ็คเกจนี้ใช้งานได้ใน Windows, Mac และ Linux ตรวจสอบเอกสารอย่างเป็นทางการเพื่อดูว่าดำเนินการอย่างไร
ติดตั้ง package ใช้ pip เพื่อติดตั้งแพ็คเกจ
pip ติดตั้ง pyttsx3
หากคุณอยู่ใน Windows คุณจะต้องมีแพ็คเกจเพิ่มเติม pypiwin32 ซึ่งจะต้องเข้าถึง API คำพูดของ Windows ดั้งเดิม
pip ติดตั้ง pypiwin32
แปลงข้อความเป็นคำพูด python script ด้านล่างนี้คือข้อมูลโค้ดสำหรับข้อความเป็นคำพูดโดยใช้ pyttsx3:
นำเข้า pyttsx3
เครื่องยนต์ = pyttsx3.init()
engine.setProperty('rate', 150) # เปอร์เซ็นต์ความเร็ว
engine.setProperty('volume', 0.9) # Volume 0-1
engine.say("สวัสดีชาวโลก!")
engine.runAndWait()
ขั้นตอนที่ 4: นำทุกอย่างมารวมกัน: การสร้างการรู้จำเสียงด้วย Python โดยใช้ Google Speech Recognition API และไลบรารี Pyttsx3
โค้ดด้านล่างมีหน้าที่ในการจดจำคำพูดของมนุษย์โดยใช้ Google Speech Recognition และแปลงข้อความเป็นคำพูดโดยใช้ไลบรารี pyttsx3
นำเข้า speech_recognition เป็น sr
นำเข้าเครื่องยนต์ pyttsx3 = pyttsx3.init() engine.setProperty('rate', 200) engine.setProperty('volume', 0.9) r = sr. Recognizer() speech = sr. Microphone(device_index=1) พร้อมคำพูดเป็นแหล่งที่มา: audio = r.adjust_for_ambient_noise(source) audio = r.listen(source) ลอง: recog = r.recognize_google(audio, language = 'en-US') print("คุณพูดว่า: " + recog) engine.say(" คุณพูดว่า: " + recog) engine.runAndWait() ยกเว้น sr. UnknownValueError: engine.say("Google Speech Recognition ไม่สามารถเข้าใจเสียง") engine.runAndWait() ยกเว้น sr. RequestError เช่น engine.say("ไม่สามารถ ขอผลลัพธ์จากบริการรู้จำเสียงของ Google; {0}".format(e)) engine.runAndWait()
มันพิมพ์เอาต์พุตบนเทอร์มินัล นอกจากนี้ยังจะถูกแปลงเป็นคำพูดอีกด้วย
คุณพูดว่า: ลอนดอนเป็นเมืองหลวงของบริเตนใหญ่
ฉันหวังว่าตอนนี้คุณจะมีความเข้าใจที่ดีขึ้นเกี่ยวกับวิธีการทำงานของการรู้จำเสียงโดยทั่วไป และที่สำคัญที่สุดคือวิธีใช้งานนั้นโดยใช้ Google Speech Recognition API กับ Python
หากคุณมีคำถามหรือข้อเสนอแนะ? แสดงความคิดเห็นด้านล่าง คอยติดตาม!