微信语音开放平台:谁动了语音市场的奶酪? ——saraszhang(张岩) 1. 创新特性 免费为第三方应用提供语音技术的开放平台,通用+垂直细分领域,语音识别准确率达90%以上。针对不同网络带宽,采用智能切换,对云服务的网络环境进行了优化,保证语音识别的速度和准确率,提升了用户的使用体验。 2. 创意点的产品功能/使用产品介绍 如果你是移动开发者,是否有这样的体验?想给自己的应用搞个语音识别功能,让你的用户打字不再犯愁,看着网上五花八门的网页,研究半天,终于下载了开发包,发现其不是强制你使用和你应用不搭的UI就是强制你的用户下载他的附加软件。如果想干干净净的使用服务,不是有使用量限制就是要谈合作收费。那个时候你还别无选择,而现在,这些问题你可以从微信语音开放平台上得到解决。 微信语音开放平台是腾讯面向开发者推出的一个开放识别能力的开发者平台。通过此平台,让语音识别技术不仅服务于公司内部的产品,同时封装成简易的包,向数万第三方应用开发者免费开放。非微信独享,所有App均可调用。
3. 创新点的创新之处的具体描述 开放之心,拥抱未来 由之前微信语音输入技术的积累,在垂直领域为QQ音乐及SOSO地图等提供了语音识别服务,获得了良好的口碑。在微信公众平台上也小试牛刀,向广大第三方开发者开放,如招商银行、南方航空和华夏基金等产品都已接入语音识别功能来提升产品的交互体验。此次开放的语音技术平台,这对于开发者来说,又多了一种选择,且微信的语音数据积累和识别经过一段时间的发展已经有很高的准确率,这一点在目前微信内置到语音输入功能上就能看出来。
通用+细分,识别精准 除了单纯的语音识别,微信在这个基础上还做了垂直领域细分,目前微信语音识别开放平台已经全面接入微信公众平台系统,全面的支持并开放公众账号的语音识别能力。而垂直细分是根据公众账号应用场景的特点,微信语音识别开放平台推出的 1+7 语音识别服务。 所谓的1+7,则是以1个通用语音识别引擎为中心,同时扩展7大垂直领域的专项语音识别,不仅方便了公众账号开发者的选择和使用,同时也大幅提升了特定领域的语音识别准确率。之后针对移动客户端开发的语音识别 SDK 也将向广大开发者推出,保证开发者在 iOS 和 Android 等移动应用开发中的语音识别需求。 开放平台+公众平台,双剑合璧
由于很多应用App都开设了公众号,对用户服务上即可以用App形式也可以通过公众平台来解决用户的需求。我们提供给公众平台的语音技术和开放平台上的技术是统一的,用户在App和公众号之间的切换不会带来任何违和感,或是任何不适的体验。 4. 创意如何产生的(创新点相关小故事) 语音技术在移动设备上的需求,由于移动设备屏幕小,打字等传统交互很不方便。有些强搜索或聊天类需要依赖文字输入的应用从PC移到手机后就有了明显的不适。因为交互上的不便,内部很多部门来找谈合作。后来想可能这种需求会比较多,由于语音技术的门槛高,很多应用自己没有开发能力,我们将此识别服务打包后开放给他们使用。然后针对已有的技术和实际需求,开发出了现在的1+7模式,并有了现在的微信语音开放平台的雏形。 5. 怎么实现的(how)
总架构 开发者要使用微信开放平台,首先需要在开放平台网站上注册APP相关信息,获得密钥,作为之后请求语音服务的凭据。然后开发者利用微信语音开放平台提供的AndroidiOS SDK,向云服务器端发送语音请请求,从而在App中集成语音服务的能力。 语音识别引擎方面 DNN模型+上万小时的声学模型训练数据。目前通用领域识别准确率已达90%以上,同时针对WiFi与2G网络的差异,采用智能切换,保证识别速度和准确率,提升了用户的使用体验。 开放平台云服务架构 微信语音开放平台云服务由两部分共同组成:开放平台网站、开放平台云服务器端。 开放平台网站:pr.weixin.qq.com 向开发者App提供核心的语音服务。云平台SDK封装了与云服务端交互的细节:SDK把开发者App的语音请求封装成Http请求发送至开放平台服务端,并从服务端获得语音请求的处理结果返回给App;而这些对开发者App都是透明的。 开放平台服务端接入服务集群会接入App的Http语音请求,进行配额校验、安全检查等处理,然后把语音请求分发至后端的识别服务器集群,由识别服务器集群完成具体的语音识别任务。 开放平台服务端针对移动网络环境做了很多优化,希望能提升移动网络环境下的语音请求速度、成功率。 Demo展示 6. 产品的意义对未来的展望 意义 (1) 语音识别技术开放,公司首例。将智能语音推向大众应用,而非微信独有。 (2) 1+7垂直领域细分,适应移动App的垂直细小化分类,整体提升了识别准确率。 展望 (1) 小型化,多语种化,国际话,提供广泛的语音识别服务,让技术服务更广泛的人群。 (2) 后期会开放语音合成,技术整合语义理解等功能,实现语音的真正智能化。 如果想的更远,结合大数据及语义分析等对说话人身份进行判断(如根据说话人的口头禅,说话的语法习惯及口音等),根据噪音对说话人的位置进行判断(如在客厅还是厨房等),建立个人的语音模型,通过个性化的语音识别为用户提供更智能的服务。 |