זיהוי דיבור באמצעות Google Speech API ו- Python: 4 שלבים
זיהוי דיבור באמצעות Google Speech API ו- Python: 4 שלבים
Anonim
זיהוי דיבור באמצעות Google Speech API ו- Python
זיהוי דיבור באמצעות Google Speech API ו- Python

זיהוי דיבור

זיהוי דיבור הוא חלק מעיבוד השפה הטבעית המהווה תת -תחום של בינה מלאכותית. במילים פשוטות, זיהוי דיבור הוא היכולת של תוכנת מחשב לזהות מילים וביטויים בשפה המדוברת ולהמיר אותם לטקסט קריא אנושי. הוא משמש במספר יישומים כגון מערכות עוזר קולי, אוטומציה ביתית, צ'אט בוטים קוליים, רובוט אינטראקציה קולית, בינה מלאכותית וכו '.

ישנם ממשקי API שונים (ממשק תכנות יישומים) לזיהוי דיבור. הם מציעים שירותים בחינם או בתשלום. אלו הם:

  • ספינקס CMU
  • זיהוי דיבור של Google
  • ממשק API של Google Cloud Speech
  • Wit.ai
  • זיהוי קול Bing של מיקרוסופט
  • Houndify API
  • דיבור אל טקסט של IBM
  • זיהוי מילות מפתח של Snowboy

אנו נשתמש כאן בזיהוי דיבור של Google מכיוון שהוא אינו דורש שום מפתח API. הדרכה זו נועדה לספק היכרות כיצד להשתמש בספריית זיהוי הדיבור של Google ב- Python בעזרת מיקרופון חיצוני כמו ReSpeaker USB 4-Mic Array מ- Seeed Studio. למרות שאין חובה להשתמש במיקרופון חיצוני, ניתן להשתמש גם במיקרופון מובנה של מחשב נייד.

שלב 1: מערך USB 4 מיקרופון ReSpeaker

מערך רמקול USB 4 מיקרופון
מערך רמקול USB 4 מיקרופון
מערך USB 4 מיקרופון ReSpeaker
מערך USB 4 מיקרופון ReSpeaker
מערך רמקול USB 4 מיקרופון
מערך רמקול USB 4 מיקרופון

מיקרופון USB של ReSpeaker הוא מכשיר מרובע מיקרופונים המיועד ליישומי AI וקוליות, שפותח על ידי Seeed Studio. יש לו 4 מיקרופונים דו-כיווניים מובנים בעלי ביצועים גבוהים המיועדים להרים את קולכם מכל מקום בחדר ו -12 מחווני LED מסוג RGB הניתנים לתכנות. מיקרופון ה- USB של ReSpeaker תומך במערכות הפעלה Linux, macOS ו- Windows. פרטים ניתן למצוא כאן.

מיקרופון ה- USB של ReSpeaker מגיע באריזה יפה המכילה את הפריטים הבאים:

  • מדריך למשתמש
  • מערך מיקרופון USB מסוג ReSpeaker
  • כבל מיקרו USB ל- USB

אז אנחנו מוכנים להתחיל.

שלב 2: התקן את הספריות הדרושות

להדרכה זו, אני מניח שאתה משתמש ב- Python 3.x.

בוא נתקין את הספריות:

pip3 התקן את SpeechRecognition

עבור macOS, תחילה יהיה עליך להתקין את PortAudio עם Homebrew ולאחר מכן להתקין את PyAudio עם pip3:

לחלוט להתקין פורטאודיו

אנו רצים מתחת לפקודה להתקנת pyaudio

pip3 להתקין pyaudio

עבור לינוקס, אתה יכול להתקין את PyAudio עם apt:

sudo apt-get להתקין python-pyaudio python3-pyaudio

עבור Windows, תוכל להתקין את PyAudio באמצעות pip:

pip להתקין pyaudio

צור קובץ פייתון חדש

ננו get_index.py

הדבק ב- get_index.py מתחת לקטע הקוד:

יבוא pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') עבור i בטווח (0, numdevices): אם (p.get_device_info_by_host_api_device_index (0, i). '))> 0: הדפס ("מזהה מכשיר קלט", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' שם '))

הפעל את הפקודה הבאה:

python3 get_index.py

במקרה שלי, הפקודה נותנת את הפלט הבא למסך:

מזהה מכשיר קלט 1 - מערך ReSpeaker 4 Mic (UAC1.0)

מזהה מכשיר קלט 2 - מיקרופון MacBook Air

שנה device_index למספר האינדקס לפי בחירתך בקטע הקוד שלהלן.

ייבא דיבור_זיהוי כ- sr

r = sr. Recognizer () דיבור = sr. מיקרופון (device_index = 1) עם דיבור כמקור: הדפס ("תגיד משהו! …") אודיו = r.adjust_for_ambient_noise (מקור) שמע = r.listen (מקור) נסה: recog = r.recognize_google (שמע, שפה = 'en-US') הדפסה ("אמרת:" + recog) למעט sr. UnknownValueError: print ("זיהוי דיבור של Google לא הצליח להבין אודיו") למעט sr. RequestError כמו e: print ("לא ניתן היה לבקש תוצאות משירות זיהוי הדיבור של Google; {0}". פורמט (ה))

אינדקס המכשירים נבחר 1 בגלל ReSpeaker 4 Mic Array יהיה כמקור עיקרי.

שלב 3: טקסט לדיבור ב- Python With Pyttsx3 Library

ישנם מספר ממשקי API זמינים להמרת טקסט לדיבור בפייתון. אחד ממשקי ה- API האלה הוא pyttsx3, שהיא חבילת הטקסט לדיבור הזמינה ביותר לדעתי. חבילה זו פועלת ב- Windows, Mac ו- Linux. עיין בתיעוד הרשמי כדי לראות כיצד הדבר מתבצע.

התקן את החבילה השתמש ב- pip כדי להתקין את החבילה.

pip להתקין pyttsx3

אם אתה נמצא ב- Windows, תזדקק לחבילה נוספת, pypiwin32, שתצטרך אותה כדי לגשת לממשק ה- API של Windows.

pip להתקין pypiwin32

המרת טקסט לדיבור סקריפט פייתון להלן קטע הקוד של טקסט לדיבור באמצעות pyttsx3:

יבוא pyttsx3

מנוע = pyttsx3.init ()

engine.setProperty ('שיעור', 150) # אחוז מהירות

engine.setProperty ('נפח', 0.9) # נפח 0-1

engine.say ("שלום, עולם!")

engine.runAndWait ()

שלב 4: חיבור הכל יחד: בניית זיהוי דיבור באמצעות פייתון באמצעות ממשק API לזיהוי דיבור של Google וספריית Pyttsx3

הקוד שלהלן אחראי לזיהוי דיבור אנושי באמצעות זיהוי דיבור של Google, והמרת הטקסט לדיבור באמצעות ספריית pyttsx3.

ייבא דיבור_זיהוי כ- sr

יבוא מנוע pyttsx3 = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('נפח', 0.9) r = sr. Recognizer () דיבור = sr.מיקרופון (device_index = 1) עם דיבור כמקור: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (שמע, שפה = 'en-US') הדפס ("אמרת:" + recog) engine.say (" אמרת: " + recog) engine.runAndWait () למעט sr. UnknownValueError: engine.say (" זיהוי הדיבור של Google לא הצליח להבין אודיו ") engine.runAndWait () למעט sr. RequestError כמו e: engine.say (" לא יכול לבקש תוצאות משירות זיהוי הדיבור של Google; {0} ". פורמט (ה)) engine.runAndWait ()

הוא מדפיס פלט במסוף. כמו כן, הוא יומר גם לדיבור.

אמרת: לונדון היא בירת בריטניה הגדולה

אני מקווה שעכשיו יש לך הבנה טובה יותר של איך זיהוי דיבור עובד באופן כללי והכי חשוב, כיצד ליישם זאת באמצעות ממשק API לזיהוי דיבור של Google עם Python.

אם יש לך שאלות או משוב? השאירו תגובה למטה. המשך לעקוב!