如何使用Python构建语音识别机器人

即使您对语音识别一无所知


您现在可能已经意识到了。

语音支持产品的巨大成功,例如 亚马逊Alexa 事实证明,在可预见的将来,一定程度的语音支持将成为家用技术的重要方面。

换句话说,具有语音功能的产品将成为游戏规则的改变者,因为它提供了很少有技术可以匹敌的交互性和可访问性。

无需GUI。

无需发短信。

AI Time Journal资源
您正在学习数据科学吗?

Check out what 图书 帮助20多个成功的数据科学家成长。

无需表情符号。

这全都是关于 速度

速度是语音准备成为下一个主要用户界面的重要原因。每十年,我们都采用一种与技术互动的新方式。我们已经从字符模式演变为图形用户界面,网络,移动设备。

与移动应用程序相比,语音现在提供了一种更快,更轻松的通信和完成任务的方式。 

我们可以告诉Alexa我们需要什么(关灯,调节温度调节器并设置闹钟-或使用“ Alexa,晚安”之类的一种话语来完成上述所有操作),或者您可以拉起手机,将其解锁,打开合适的应用程序,然后执行一项或多项任务。 

当您考虑习惯性用例(那些使客户随着时间流逝而回头的用例)时,通过语音获得的效率会随着时间的推移而累积。

“由于以下原因,短信将来会减少 Alexa” 


— 加里·韦纳楚克(Gary Vaynerchuk)

加里·韦纳楚克(Gary Vaynerchuk):语音让我们说得更快

因此,这使我非常有兴趣进行一个新项目,以使用Python构建简单的语音识别。

当然,我不会从头开始构建代码,因为那将需要大量的训练数据和计算资源,以使体面的方式使语音识别模型准确无误。

相反,我用 Google Speech Recognition API使用Python执行语音转文字任务 (查看下面的演示,我向您演示了语音识别的工作原理-实时!)。

在本文结尾,我希望您能更好地了解语音识别的总体工作原理,最重要的是,如何使用Google Speech Recognition API和Python来实现语音识别。 

相信我。就这么简单。

随时检查 源代码在这里 如果您有兴趣。

让我们开始吧!


为什么要使用Google语音识别API?

您可能会想,“鉴于语音识别的需求不断增长和普及,这是唯一可用的API吗?”

答案是,还有其他免费或付费服务可用的API,如下所示:

最后,我选择了 Google Web Speech API 来自 语音识别库,因为它具有一个默认API密钥,该密钥被硬编码到语音识别库中。 

这意味着您可以立即开始使用,而无需使用API​​密钥或其他API的用户名/密码组合进行身份验证。

但是,方便 Google Web Speech API 还具有某些限制: 您自己的密钥的API配额是每天50个请求,目前无法提高此限制。

如果我们只想将此API用于实验目的,则这适合我们的用例。请注意,如果您正在运行的应用程序或网站始终调用该API,则您可能需要考虑从上述两个API中获得付费服务。 

使用Google Speech Recognition API使用Python构建语音识别 

(资源)

为了避免使您对语音识别的工作方式感到厌烦,您可以阅读这篇精彩的文章 讨论一般机制以及如何实现API的文章.

在下面的文章中,我将通过遵循本文向您展示如何逐步实现此API。 

但首先,您需要安装 语音识别library using pip install 语音识别

而且,我们可以使用该库本身提供的Google Web Speech API。

在此实现中,我使用自己的麦克风录制了语音,然后SpeechRecognizer访问了麦克风 (安装 PyAudio包 以访问麦克风) 并据此认出了我的声音。

查看下面的代码片段,以了解完整的实现,因为它们相对不言自明。

识别麦克风语音的功能

To handle ambient noise, you’ll need to use the adjust_for_ambient_noise()method of the Recognizer class in 要么 der for the library to recognize your voice. 

After running the adjust_for_ambient_noise()method, wait for a second 和 let it analyze the audio source collected in 要么 der to handle ambient noise 和 capture correct speech.

Lastly, we need to implement try 和 exceptblock to handle errors such as when the API is unreachable 要么 unresponsive after sending requests, 要么 when our speech is unrecognizable. 

要使用上面的功能,您只需实现下面的代码块,然后…Voilà!你做到了! --

有关使用Google语音识别API的简单演示

现在我们已经准备好完整的实现代码。现在该看看这东西是如何工作的。

我录制了一段简短的视频,向您展示API从录制语音到以文本格式返回语音的确切工作方式。 

尽管这似乎不像我们期望的那么准确,但这绝对值得花时间去尝试代码和API!


最后的想法

(资源)

感谢您的阅读。

希望您现在对语音识别的总体工作原理有一个更好的了解,最重要的是,如何将Google语音识别API与Python一起实现。

随时检查 源代码在这里 如果您有兴趣。

我还建议您尝试其他API,以比较语音到文本的准确性。 

尽管现阶段语音支持产品并未在企业和我们的日常生活中得到广泛使用,但我确实相信,这项技术会干扰很多企业,以及消费者如何使用具有语音识别功能的产品,迟早。

与往常一样,如果您有任何问题或意见,请随时在下面留下您的反馈,或者随时可以与我联系 领英。到那时,在下一篇文章中见! --


有关 Author

阿德蒙·李(Admond Lee) 被称为抢手货之一 数据科学家和顾问 使用具有丰富专业知识的数据帮助初创公司的创始人和各种公司解决问题 数据科学咨询和行业知识.

您可以继续与他联系 领英, , 推特脸书 要么 在这里和他预定电话预约 如果您正在为公司寻找数据科学咨询。与Admond Lee在线预订
阿德蒙·李(Admond Lee)被公认为帮助初创企业创始人和企业的数据科学家和顾问之一。一点点地

贡献者

 & AI for Education 2019计划 委员会成员

数据科学咨询|数据科学家|讲者最佳作家@Medium

贡献者表达的观点是他们自己的观点。

关于李mond

 & AI for Education 2019计划 委员会成员 数据科学咨询|数据科学家|讲者最佳作家@Medium

查看Admond Lee发表的所有帖子→