זיהוי דיבור באמצעות Google Speech API ו- Python: 4 שלבים

תוכן עניינים:

שלב 1: מערך USB 4 מיקרופון ReSpeaker
שלב 2: התקן את הספריות הדרושות
שלב 3: טקסט לדיבור ב- Python With Pyttsx3 Library
שלב 4: חיבור הכל יחד: בניית זיהוי דיבור באמצעות פייתון באמצעות ממשק API לזיהוי דיבור של Google וספריית Pyttsx3

2025 מְחַבֵּר: John Day | [email protected]. שונה לאחרונה: 2025-01-23 14:46

זיהוי דיבור

זיהוי דיבור הוא חלק מעיבוד השפה הטבעית המהווה תת -תחום של בינה מלאכותית. במילים פשוטות, זיהוי דיבור הוא היכולת של תוכנת מחשב לזהות מילים וביטויים בשפה המדוברת ולהמיר אותם לטקסט קריא אנושי. הוא משמש במספר יישומים כגון מערכות עוזר קולי, אוטומציה ביתית, צ'אט בוטים קוליים, רובוט אינטראקציה קולית, בינה מלאכותית וכו '.

ישנם ממשקי API שונים (ממשק תכנות יישומים) לזיהוי דיבור. הם מציעים שירותים בחינם או בתשלום. אלו הם:

ספינקס CMU
זיהוי דיבור של Google
ממשק API של Google Cloud Speech
Wit.ai
זיהוי קול Bing של מיקרוסופט
Houndify API
דיבור אל טקסט של IBM
זיהוי מילות מפתח של Snowboy

אנו נשתמש כאן בזיהוי דיבור של Google מכיוון שהוא אינו דורש שום מפתח API. הדרכה זו נועדה לספק היכרות כיצד להשתמש בספריית זיהוי הדיבור של Google ב- Python בעזרת מיקרופון חיצוני כמו ReSpeaker USB 4-Mic Array מ- Seeed Studio. למרות שאין חובה להשתמש במיקרופון חיצוני, ניתן להשתמש גם במיקרופון מובנה של מחשב נייד.

שלב 1: מערך USB 4 מיקרופון ReSpeaker

מיקרופון USB של ReSpeaker הוא מכשיר מרובע מיקרופונים המיועד ליישומי AI וקוליות, שפותח על ידי Seeed Studio. יש לו 4 מיקרופונים דו-כיווניים מובנים בעלי ביצועים גבוהים המיועדים להרים את קולכם מכל מקום בחדר ו -12 מחווני LED מסוג RGB הניתנים לתכנות. מיקרופון ה- USB של ReSpeaker תומך במערכות הפעלה Linux, macOS ו- Windows. פרטים ניתן למצוא כאן.

מיקרופון ה- USB של ReSpeaker מגיע באריזה יפה המכילה את הפריטים הבאים:

מדריך למשתמש
מערך מיקרופון USB מסוג ReSpeaker
כבל מיקרו USB ל- USB

אז אנחנו מוכנים להתחיל.

שלב 2: התקן את הספריות הדרושות

להדרכה זו, אני מניח שאתה משתמש ב- Python 3.x.

בוא נתקין את הספריות:

pip3 התקן את SpeechRecognition

עבור macOS, תחילה יהיה עליך להתקין את PortAudio עם Homebrew ולאחר מכן להתקין את PyAudio עם pip3:

לחלוט להתקין פורטאודיו

אנו רצים מתחת לפקודה להתקנת pyaudio

pip3 להתקין pyaudio

עבור לינוקס, אתה יכול להתקין את PyAudio עם apt:

sudo apt-get להתקין python-pyaudio python3-pyaudio

עבור Windows, תוכל להתקין את PyAudio באמצעות pip:

pip להתקין pyaudio

צור קובץ פייתון חדש

ננו get_index.py

הדבק ב- get_index.py מתחת לקטע הקוד:

יבוא pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') עבור i בטווח (0, numdevices): אם (p.get_device_info_by_host_api_device_index (0, i). '))> 0: הדפס ("מזהה מכשיר קלט", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' שם '))

הפעל את הפקודה הבאה:

python3 get_index.py

במקרה שלי, הפקודה נותנת את הפלט הבא למסך:

מזהה מכשיר קלט 1 - מערך ReSpeaker 4 Mic (UAC1.0)

מזהה מכשיר קלט 2 - מיקרופון MacBook Air

שנה device_index למספר האינדקס לפי בחירתך בקטע הקוד שלהלן.

ייבא דיבור_זיהוי כ- sr

r = sr. Recognizer () דיבור = sr. מיקרופון (device_index = 1) עם דיבור כמקור: הדפס ("תגיד משהו! …") אודיו = r.adjust_for_ambient_noise (מקור) שמע = r.listen (מקור) נסה: recog = r.recognize_google (שמע, שפה = 'en-US') הדפסה ("אמרת:" + recog) למעט sr. UnknownValueError: print ("זיהוי דיבור של Google לא הצליח להבין אודיו") למעט sr. RequestError כמו e: print ("לא ניתן היה לבקש תוצאות משירות זיהוי הדיבור של Google; {0}". פורמט (ה))

אינדקס המכשירים נבחר 1 בגלל ReSpeaker 4 Mic Array יהיה כמקור עיקרי.

שלב 3: טקסט לדיבור ב- Python With Pyttsx3 Library

ישנם מספר ממשקי API זמינים להמרת טקסט לדיבור בפייתון. אחד ממשקי ה- API האלה הוא pyttsx3, שהיא חבילת הטקסט לדיבור הזמינה ביותר לדעתי. חבילה זו פועלת ב- Windows, Mac ו- Linux. עיין בתיעוד הרשמי כדי לראות כיצד הדבר מתבצע.

התקן את החבילה השתמש ב- pip כדי להתקין את החבילה.

pip להתקין pyttsx3

אם אתה נמצא ב- Windows, תזדקק לחבילה נוספת, pypiwin32, שתצטרך אותה כדי לגשת לממשק ה- API של Windows.

pip להתקין pypiwin32

המרת טקסט לדיבור סקריפט פייתון להלן קטע הקוד של טקסט לדיבור באמצעות pyttsx3:

יבוא pyttsx3

מנוע = pyttsx3.init ()

engine.setProperty ('שיעור', 150) # אחוז מהירות

engine.setProperty ('נפח', 0.9) # נפח 0-1

engine.say ("שלום, עולם!")

engine.runAndWait ()

שלב 4: חיבור הכל יחד: בניית זיהוי דיבור באמצעות פייתון באמצעות ממשק API לזיהוי דיבור של Google וספריית Pyttsx3

הקוד שלהלן אחראי לזיהוי דיבור אנושי באמצעות זיהוי דיבור של Google, והמרת הטקסט לדיבור באמצעות ספריית pyttsx3.

ייבא דיבור_זיהוי כ- sr

יבוא מנוע pyttsx3 = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('נפח', 0.9) r = sr. Recognizer () דיבור = sr.מיקרופון (device_index = 1) עם דיבור כמקור: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (שמע, שפה = 'en-US') הדפס ("אמרת:" + recog) engine.say (" אמרת: " + recog) engine.runAndWait () למעט sr. UnknownValueError: engine.say (" זיהוי הדיבור של Google לא הצליח להבין אודיו ") engine.runAndWait () למעט sr. RequestError כמו e: engine.say (" לא יכול לבקש תוצאות משירות זיהוי הדיבור של Google; {0} ". פורמט (ה)) engine.runAndWait ()

הוא מדפיס פלט במסוף. כמו כן, הוא יומר גם לדיבור.

אמרת: לונדון היא בירת בריטניה הגדולה

אני מקווה שעכשיו יש לך הבנה טובה יותר של איך זיהוי דיבור עובד באופן כללי והכי חשוב, כיצד ליישם זאת באמצעות ממשק API לזיהוי דיבור של Google עם Python.

אם יש לך שאלות או משוב? השאירו תגובה למטה. המשך לעקוב!