查看原文
其他

2D影像转3D:Tiktok或用AI为Vision Pro施魔法

黑毛警长008 AR圈
2024-09-06

前天(1月22日),TikTok发布了一项新型AI技术——“Depth Anything”,预示着2D影像转3D有望出现突破。2D视频“一键转3D”如果实现,将大幅推进XR产业的发展。

“Depth Anything”是TikTok联手香港大学和浙江大学共同研发的一种先进的单目深度估计(MDE)技术。这项技术能够从单张图片中提取出物体的深度信息。它使用了一个庞大的AI训练数据集,包含了150万个标记过的图像和超过6200万个未标记的图像。如此大规模的训练不仅显著提升了其精度,还有效减少了AI模型中常见的泛化错误。

“Depth Anything”在零次学习相对深度和度量深度估计方面的表现尤为出色,即便是在没有接受额外训练的情况下,也能准确估计它从未见过的图像的深度。这一点,使其在技术性能上超越了此前的领先模型,如 MiDaS v3.1。

下面的图示展示了“Depth Anything”将普通2D图片转成的深度图。可以看到,与MiDaS生成的深度图相比,“Depth Anything”生成的深度图更为精确和细腻。

🔺左图:原始2D图;中图:采用MiDaS生成的深度图;右图;采用Depth Anything生成的深度图,来源:depth-anything.github.io

🔺左图:原始2D图;中图:采用MiDaS生成的深度图;右图;采用Depth Anything生成的深度图,来源:depth-anything.github.io

🔺左图:原始2D图;中图:采用MiDaS生成的深度图;右图;采用Depth Anything生成的深度图,来源:depth-anything.github.io

简而言之,这项AI技术能更有效地从2D图像中识别出深度信息图。而基于这些深度信息图,普通的2D影像便可转化为3D影像(苹果称之为“空间照片/视频”)。

🔺左图:原始2D图,右图,采用Depth Anything生成的深度图,图源:depth-anything.github.io

下图展示了警长利用2D图和“Depth Anything”生成的深度图合成的3D图(红蓝格式)。

🔺使用原始2D图及深度图生成的3D图片格式(红蓝格式),图源:Stereo Photo Maker

基于2D图及深度图,我们还可以生成6DoF视频。以下是两个由警长制作的示例视频。
🔺使用2D图生成的6DoF视频,来源:AR圈

🔺使用2D图生成的6DoF视频,来源:AR圈

🔺生成3D图的难点在于深度图的质量,图源:AR圈

尽管使用2D图及深度图生成3D图并非全新技术,但之前此技术的应用受到深度图质量的制约。TikTok发布的“Depth Anything”技术在提升深度图的质量方面取得了重大突破,意味着2D影像转化为3D影像的“最后一公里”问题有望得到解决。此技术的应用将使得TikTok平台上现有的海量2D影像能够轻松转化为3D影像,让普通手机拍摄的2D影像“一键转3D”。这将为Vision Pro版TikTok带来海量的3D视频源。

前天,TikTok公布了“Depth Anything”技术。而昨天,TikTok的产品经理宣布基于Vision Pro“彻底重构了TikTok”。TikTok在前后脚公布的这两件大事,是简单的巧合还是有高人指点,耐人寻味。

苹果Vision Pro供应商全图 | 拆解报告V1.3 |PDF下载|柱镜光栅|瞳距调节|MicroOLED|Pancake

2024-01-20

30分钟售罄!苹果Vision Pro实体店售罄,库存被快速抢空!

2024-01-19

LG成立XR事业部,明年有望发布XR设备

2024-01-16

COC模内注塑Pancake、高亮全彩衍射光波导、微型全彩AR光机、车载AR-HUD | 歌尔光学携多款全新光学方案亮相CES

2024-01-11

投稿/商务/转载/合作

请联系微信:XRInstitute


点个在看你最好看


素材来源官方媒体/网络新闻
继续滑动看下一个
AR圈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存