查看原文
其他

来了!新一代 App 视觉增强辅助方案它真的来了!

点击“开发者技术前线”,选择“星标🔝”
在看|星标|留言,  真爱
17世纪之前,欧洲人认为天鹅都是白色的,但忽然有一天,人们看到了第一只黑天鹅,随着这个黑天鹅的出现,人们认知彻底坍塌,一切秩序都面临着推倒重建。
黑天鹅寓意着不可预测的重大稀有事件,它完全在意料之外,一只黑天鹅的出现就足以颠覆一切!
新型冠状病毒成了2020年飞出来的一只“黑天鹅”!这只2020年的黑天鹅,让网课、视频会议、视频面试、视频问诊越来越火。
这些基于实时音视频技术( 以下简称为 RTC, Real-Time Communication)的场景,支撑着我们在疫情期间工作、学习和生活可以继续,不至于停滞。不过 RTC 技术还可以做更多,只是需要我们去发掘。
在去年的 RTC 创新编程挑战赛上,有一支来自上海科技大学的团队将 RTC 技术与机器学习结合,开发了一个视觉辅助产品,可以帮助用户避障、导航、远程指引等。他们也希望这个作品不仅仅可以帮助那些有视觉障碍的人,同样可以服务于普通人。本文是来自这支团队的实践总结,源码也分享在了文末。
另外,今年的 RTC 创新编程挑战赛已经在线上开赛了!欢迎大家拉上小伙伴一起来线上约战!大赛准备了丰厚的大奖,点击阅读原文了解更多。

01
项目介绍


Guidoge是一套基于普通智能移动设备辅助视觉方案,它依托于Agora提供的实时音视视频与机器学习,主要面向视障人士、骑行爱好者等有着视觉辅助及拓展需求的群体。
我们通过RTC技术将移动端捕捉到的摄像头图像传回后端服务器,使用深度学习技术进行场景理解等操作,并通过语音和震动等方式与用户交互。这一产品无需复杂外设,仅凭一台手机和一根挂绳(Guidoge Loop)即可实现对象识别、语音反馈等丰富的视觉增强功能。
02
项目初心


AI是一项神奇的发明,特别是近些年深度学习领域中GAN、残差网络的提出让计算机视觉、语音合成等方向都有了长足的进步。
在调研最新的科研结果后,我想,既然我们已经有了合成自然语音以及表现出色的机器视觉技术,那么只要加上RTC实时传输,我们就能实现这个梦想:我们将移动设备随手挂在胸后,它便能在骑行时用自然的声音告知后方来车;对于视障人群,我们甚至不仅能让Guidoge告诉他们前方的障碍物,甚至能将天空中云的形状、街边发生的趣事都一一讲述给他们。Guidoge不只是一个面向视障群体开发的产品;它试图解决的是所有人共同面临的一个问题:视力的衰退与视觉面的不足。
03
主要功能


系统功能介绍
基于视觉辅助这一目的,Guidoge首先需要解决的问题就是障碍规避和导航。运行在移动设备上的客户端通过RTC接口将视频信息发送到Guidoge Server,在云端进行Depth estimation步骤得到前景的深度信息,并通过Object Detection进行障碍识别。除此之外,客户端程序还能根据预设路径,利用第三方导航服务的API获取路径方案。
 Obstacle Detection(障碍检测)方案

在这一技术方案中不止计算机视觉技术大放异彩,自然、流畅的语音合成系统也是打造“有温度的交互”所必不可少的。片头视频中所采用的正是Google Tacotron2和WaveNet一同实现的TTS系统。

TTS(文字转语音)方案

系统功能框图

  • 接受前端图像数据并进行深度预测‍


from PIL import Imageimport base64from io import BytesIOdef parse_img(url): url = url.split(',')[1] data = base64.decodebytes(url.encode()) return Image.open(BytesIO(data))from sanic import Sanicfrom sanic.response import jsonfrom sanic_cors import CORS, cross_originapp = Sanic()CORS(app)@app.route("/")async def test(request): return json({"hello": "world"})@app.route("/json", methods=['POST', 'OPTIONS'])def post_json(request): ret = None try: img = parse_img(request.json['answer']).transpose(Image.ROTATE_90) img.save('target_network.bmp') except: return json({ "received": True, "message": request.json }) ret = predict_depth(img, True, True)

  • 返回预测的depth map


raw_data = base64.encodebytes(ret) return json({ "received": True, "message": 'data:image/jpg;base64,' + raw_data.decode()})

  • Web端对视频数据的预处理


const width = video.videoWidth, height = video.videoHeight canvas.width = width canvas.height = height context.drawImage(video, 0, 0, width, height)
const data = canvas.toDataURL('image/png') if (data.indexOf('base64') != -1) { result.style="position: absolute;left: 0;top: 0;width: 100vw;height: 100vh;background:white" postData(`${api_entrypoint}/json`, {answer: data}) .then(data => { console.log(data) resultimg.src = data.message cont() }) .catch(error => { console.error(error) cont() }) } else { cont() }

  • 连接到Agora提供的RTC服务


client = AgoraRTC.createClient({mode: 'live'});client.init(appId.value, function () { client.join(channel_key, channel.value, null, function(uid) { camera = videoSource.value; localStream = AgoraRTC.createStream({streamID: uid, cameraId: camera, video: true, screen: false}); })});
值得一提的是,声网开发者中心提供的样例代码上手非常友好,虽然我自己此前未接触过音视频直播,但也成功实现了当天调通上线——当时我和队友凌晨三点开了瓶可乐庆祝,在实验场地带着运行了App的手机到处乱跑,是非常愉快的敏捷开发体验了!
04
未来展望


深度学习的进展使得AI技术呈现井喷式发展,大家都说短视频与直播是下一个互联网的“风口”,而5G套餐的第一个用户就产生数月前。我们深信这些技术本身就具有非常光明的前景,而从它们之间的交叉结合能诞生出更振奋人心的新事物。当然,深入实践的前提一定是对领域本身有足够深刻的理解,这很难离得开科技巨头和独角兽企业研发部门的通力合作。
对Guidoge方案本身,或许它离真正落地还有一段距离,这段距离可能是5G的全面应用,也有可能是边缘计算能力的提升。目前来说,Guidoge尝试的RTC+AI+云计算方案会是一种方向,为之后使用RTC服务的开发者们开拓思路,甚至吸引更多志同道合的战友一起深耕于这个实时化的、充满互动技术的未来(也是我们团队成员的美好愿望)。
我们相信,未来不会太远。
04
开源链接


  • Repo:https://github.com/AgoraIO-Community/2019-Hackathon-Works-Vision-Enhancement-Guidoge
  • 编译与运行指南已附在GitHub Repo中。
  • 作者姚沧力:上海科技大学FemtoTech工作室创始人之一,全栈开发者,热衷视频创作和各类新兴技术,现于声网 Agora 实习。

  • 姚沧力主页:https://github.com/nekowink

  • 作者张启煊:上海科技大学GeekPie社团社长,MARS实验室成员,热衷于计算机视觉与区块链技术。

  • 张启煊主页:https://github.com/eEhyQx



05
One More Thing


最后由声网 Agora 主办的 RTC 2020 编程挑战赛春季赛已经开启报名了!本次大赛准备了丰厚的大奖,获奖者更有机会进入声网 Agora 应聘快速通道,快拉上小伙伴报名吧!


点击「阅读原文」,报名参赛

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存