用JavaScript打造AI应用-从Nodejs SDK 看DuerOS的技能开发
为什么要掌握JavaScript呢? 使用JavaScript能能否开发AI应用么?
答案是肯定的。
全栈语言JavaScript
就全栈编程语言而言,与python 并驾齐驱的要算是JavaScript了:
基于JavaScript的前端框架百花齐放,Vue、React、Angular都有广泛的应用;
桌面应用有NW.js(Node +webkit),以及现在的Electron;
嵌入式系统中,也有着Espruino(被称为微控制器的 JavaScript),Tessel (一个集成了Wi-Fi的JavaScript 微处理器)以及国内的ruff.io,详见拙文《探索嵌入式应用框架(EAF)》;
后台服务基本上就是Nodejs的世界,有着丰富的工具集;
在人工智能领域,就机器学习而言,Javascript也有着诸多的开源框架,TensorFlow.js, Brain.js , Synaptic.js等
......
关于JavaScript 的一些编程基础,可以参见《全栈必备JavaScript基础》。
那对于JavaScript的开发者如何开发人工智能相关的应用呢?
这还是需要明确具体的应用场景,但是人工智能操作系统(可参见《感知人工智能操作系统》一文)的产生扩大了AI应用的领域。就对话式AI系统(例如DuerOS)而言,平台化更是Javascript开发者的福音。基于AI操作系统和开发平台,Javascript开发者可以更加高效地开发AI应用。
DuerOS 的 Nodejs 应用示例
关于DuerOS的详细介绍,可以参见《面向接口/协议?看DuerOS的技能开发》,当然对NLP的更多理解(可以参见《感知自然语言理解(NLU)》一文),对于开发对话式AI系统上的技能应用,是大有裨益的。DuerOS提供的Javascript支持是开发技能服务(Skill Bot)的SDK,采用npm加载 , 支持node.js 6.10及以上版本。
构建一个DuerOS的技能服务,一般如下步骤:
1)在DBP(DuerOS Bot Platform)创建并配置技能服务
2)构建基于Nodejs的开发环境
3)创建web服务及调用入口
4)编辑具体的业务逻辑
5)调试后发布技能服务
关于在DBP平台创建和配置技能,以及调试和发布技能,可以具体参见官网说明dueros.baidu.com/dbp。
环境构建
基于DuerOS的技能服务开发,基本上只需要安装Node,Javascript bot SDK,以及相应的httpserver模块例如express,koa等,就可以完成开发环境的搭建:
cd /myworkspace
mkdir js-bot-test
cd js-bot-test
npm init
npm install express --save
npm install bot-sdk --save
Web 服务入口
和Java 开发技能服务类似(参见《从Java SDK看DuerOS的技能开发》),需要创建一个服务启动的入口,在这里是index.js:
const express = require('express');
const Bot = require('./Bot');
let myapp = express();
myapp.post('/', (req, res) => {
req.rawBody = '';
req.setEncoding('utf8');
req.on('data', chunk => {
req.rawBody += chunk;
});
req.on('end', () => {
let mybot = new Bot(JSON.parse(req.rawBody));
mybot.run().then(result => {
res.send(result);
});
});
}).listen(8888);
使用express 构建了一个监听8888端口的web服务,完成与DuerOS平台之间的通信,在生产环境中,要增加证书的验证。
编写Bot的业务逻辑
最重要的,需要创建具体的技能服务,实现具体的业务逻辑,示例的Bot.js 文件组织结构如下:
const BaseBot = require('bot-sdk');
class Bot extends BaseBot {
constructor(postData) {
super(postData);
//服务入口请求的处理
this.addLaunchHandler(() => {
return {
outputSpeech: '欢迎使用!'
};
});
//相关意图处理
this.addIntentHandler('myintent1', () => {
let targetSlot1 = this.getSlot('slot1');
// 意图1 的逻辑处理以及槽位填充,return 相应的 directives 和 outspeech等
});
this.addIntentHandler('myintent1', () => {
let targetSlot2 = this.getSlot('slot2');
});
//事件处理
this.addEventListener(‘event1’,() => {
//对于于事件1的相关处理,return 相应的 directives 和 outspeech等
});
//......
// 退出会话
this.addSessionEndedHandler(function({
// clear status
// 清空状态,结束会话。
return null;
});
}
//其他业务逻辑的相关方法
主要的框架还是对话的开启和关闭,以及对意图和事件的处理。所有的逻辑处理函数的返回结果可以是json Object 也可以是Promise包裹的json Object。
至此,就可以运行服务来调试技能了,一旦验证完成,即可在DBP 发布自己的技能了。
DuerOS Javascript Bot SDK 代码浅析
“磨刀不误砍柴功”,理解JS Bot SDK的源代码,对基于Nodejs开发DuerOS的技能服务大有裨益。
在github上bot-sdk-node.js/lib/ 的目录下,是JS bot sdk 的核心代码,主要是6个文件:
Bot.js
Certificate.js
NLU.js
Request.js
Response.js
session.js
NLU 模块
NLU 模块主要完成槽位的设置\获取\确认,以及通过ask()方法完成槽位填充。同时,可以获取意图的名称并确认意图及确认意图状态。需要注意的是setDelegate()方法的使用,只有在DBP平台完成了意图配置,setDelegate()才有效,该方法只是将明确的意图判断交给了DuerOS代为处理。
Session 模块
正像《面向接口/协议?看DuerOS的技能开发》一文中指出的,Session 和浏览器中的cookie 非常类似,用于在客户端和服务器之间传递持久化数据。Javascript bot sdk 中的Session 模块主要提供了getData()和setData()两个方法,用于存储/读取key/value形式的数据。
Certificate 模块
安全性一直是DuerOS 平台所关注的一个重要方面,在DuerOS 与技能服务bot之间是安全通信,尽管在技能调试的时候可以关闭证书的验证。Certificate 模块通过enableVerifyRequestSign()方法开启验证请求参数签名,阻止非法请求, disableVerifyRequestSign()关闭验证请求参数签名,verifyRequest()验证发送请求者是否合法。 关于DBP 平台的安全性,可以以后专门研究讨论。
Request 模块
Request 模块完成了对DBP协议request 请求的封装,主要功能包括:
获取数据对象:getData(),getSession(),getNlu()
根据上下文获取终端状态信息和事件信息:getAudioPlayerContext(),getVideoPlayerContext(), getScreenContext() 和getEventData()
获取用户信息: getUserId(),getQuery(),getLocation()
获取应用信息: getBotId(),getApiAccessToken() ,getApiEndPoint() ,getExternalAccessTokens()
判断对话状态:isLaunchRequest() ,isSessionEndedRequest() ,isDialogStateCompleted()
Response 模块
Response 模块完成了对DBP协议Response响应的封装,主要功能包括:
返回结果封装:buildResult(data),buildResult(data),defaultResult()是默认结果
对话相关:setShouldEndSession(),
异常处理:illegalRequest(),setFallBack() 是兜底话术
麦克风控制: setExpectSpeech(expectSpeech)
设置指令次序:setAutoDirectivesArrangement(),setStrictDirectivesArrangement()
设置expectResponse:addExpectTextResponse(text), addExpectSlotResponse(slot)
expectResponse用于推测用户可能的回复,开发者的技能Bot在响应DuerOS请求时,可以添加expectResponse 信息,告诉DuerOS用户在下次交互时可能话术的某些关键词,DuerOS将在下一轮对话中提高语音识别能力,进而提高了意图的准确性,从而提高了用户使用该技能的用户体验。
还有一个语音播报相关的方法formatSpeech(mix) ,该方法自动识别SSML和纯文体,另外在extension 目录下还有还TTS相关的模块,以后可以对TTS和SSML做更多的探讨。
Bot模块
Bot 模块是所有技能bot的基类,实现了一个典型技能服务的基础功能和逻辑框架。Bot 类的构造函数如下:
constructor(postData) {
this.request = new Request(postData);
this.session = this.request.getSession();
this.nlu = this.request.getNlu();
this.response = new Response(this.request, this.session, this.nlu);
this._eventHandler = new Map();
this._intentHandler = new Map();
this.botMonitor = new BotMonitor(postData);
}
Bot的构造以request为参数,完成对request,NLU和Session的获取,生成Response对象,创建意图和事件的处理映射,并且构建了技能服务的监控器。
Bot 类中的主要方法分类如下:
对话相关:addLaunchHandler(handler) ,addSessionEndedHandler(handler) ,waitAnswer() ,endDialog()
意图相关:addIntentHandler(intent, handler),getIntentName(),getSlot(field, index = 0), setSlot(field, value, index = 0)
事件相关:addDefaultEventListener(handler)
安全相关:initCertificate(headers, body),setPrivateKey(filename)
会话相关:endSession() ,getSessionAttribute(field = null, defaultValue = null),setSessionAttribute(field, value, defaultValue = null)和setSessionAttribute(field, value, defaultValue = null),
设备属性判断:isSupportDisplay(),isSupportAudioPlayer(),isSupportVideoPlayer()
对Response中expectResponse的封装:addExpectSlotResponse(slot)
应用相关,对request中的方法封装: getApiAccessToken(),getApiEndPoint() ,sendMateappNotification(data)
用户相关:getUserProfile(),getRecordSpeech(audioToken),getDeviceLocation()
Run()方法是Bot 执行的主体,流程如下:
为了简洁起见,流程图中忽略了botMonitor的相关操作。
另外, Bot类中还实现了对音视频播放器指令,以及展示卡片和模版的处理。
Directive 指令实现
DuerOS JS Bot SDK 对DBP协议中的Directive指令实现了较为完整的封装。所有的指令都派生自BaseDirective类,指令的种类包括:
启动app指令
录音指令
支付指令
授权指令
音频播放器指令
视频播放器指令
显示指令及相关模版
指令相关源代码位于https://github.com/dueros/bot-sdk-node.js/tree/master/lib/directive。
展示模版和卡片
针对有屏设备,DuerOS Bot SDK 提供了较为丰富的展现模版和展示卡片。
展现模板分body template和list template两种类型。其中body template由图片和文字组成,list template由一系列list item组成,每个list item由图片和文字组成。不同的展现模板适合不同的场景,开发者可以根据技能展现的需求选择合适的模板。模版指令示意如下:
{
"directives": [
{
"type": "Display.RenderTemplate",
"template": {
"type": "{{STRING}}",
"token": "{{STRING}}",
"backgroundImage": {{ImageStructure}},
"title": "{{STRING}}",
"textContent": {
"position": "{{ENUM}}",
"text": {{TextStructure}}
}
}
}
]
}
当技能服务回复用户的时候,可以通过使用卡片形式来展现更生动、丰富的内容。常用的展现卡片类型有文本卡片、标准卡片、标准列表卡片、图片卡片。展现卡片随Response消息一起发送给DuerOS。卡片在response中的json格式如下:
"card": {
"type":"txt",
"token":"{{STRING}}",
"content":"{{STRING}}",
"url":"{{STRING}}",
"anchorText": "{{STRING}}",
"cueWords":[
"{{STRING}}",
"{{STRING}}",
"{{STRING}}",
...
]
}
针对展现模版和展示卡片,github上给出了比较详细的示例,在DuerOS官网上则给出了具体的布局示意例子。
示例代码
作为一个Javascript开发者,如果开发基于DuerOS的技能服务的话, 从示例代码开始往往是个不错的选择。在github上(https://github.com/dueros/bot-sdk-node.js/tree/master/samples),给出了10多个示例代码,有音乐播放的技能服务,个税计算器,历史上的今天等等。
其中的多个示例代码就是DBP官网上的技能模版,猜一猜是哪几个呢?
参考资料:
https://www.robinwieruch.de/machine-learning-javascript-web-developers/
https://github.com/dueros/bot-sdk-node.js
https://dueros.baidu.com/dbp