其他
移动深度学习:人工智能的深水区
▊ 奇妙的风格化效果
▊ 视频主体检测技术在App中的应用
▊ 在服务器端和移动端应用深度学习技术的难点对比
▊ 实现AR实时翻译功能
OCR提取文本
需要把单帧图片内的文本区域检测出来。a. 检测文本区域是典型的深度学习技术范畴,使用检测模型来处理。b. 对文本区域的准确识别决定了贴图和背景色的准确性。 要对文本的内容进行识别,就要知道写的具体是什么。a. 识别文本内容需要将图像信息转化为文本,这一过程可以在移动端进行,也可以在服务器端进行。其原理是使用深度学习分类能力,将包含字符的小图片逐个分类为文本字符。b. 使用的网络结构GRU是LSTM网络的一种变体,它比LSTM网络的结构更加简单,而且效果也很好,因此是当前非常流行的一种网络结构。
翻译获取
如果是在移动端进行文本提取,那么在得到提取的文本后,就要将文本作为请求源数据,发送到服务器端。服务器端返回数据后,就可以得到这一帧的最终翻译数据了。 请求网络进行图像翻译处理,移动端等待结果返回。
找到之前的位置
需要用一个完整的三维坐标系来描述空间,这样就能知道手机现在和刚才所处的位置。 需要倒推原来文本所在位置和现在的位置之间的偏移量。 在跟踪的同时需要提取文字的背景颜色,以尽量贴近原图效果。文字和背景的颜色提取后,在移动端学习得到一张和原文环境差不多的背景图片。 将服务器端返回的结果贴合在背景图片上,大功告成。
(点击封面了解本书详情)
移动深度学习需要克服模型压缩、编译裁剪、代码精简、多平台支持、汇编优化等诸多挑战,本书正是基于作者在此过程中的实战经验。首先介绍基础的数学原理和深度学习模型,然后深入移动计算设备的体系结构,以及如何在这种体系结构上进行高效的深度学习计算。
大家都在看
▼ 点击阅读原文,了解本书详情。