查看原文
社会

北大字节重磅发布:DiT核心组件颠覆图像生成,传统预测时代终结!一作北大田柯宇科研成长经历

LeoCC AI说热点
2024-10-21


01

田柯宇的学术背景


田柯宇是北京大学计算机科学专业的研究生,曾在字节跳动的AI Lab进行实习。

他在学术领域的表现引人注目,已发表多篇高水平论文,其中包括两篇在国际顶级会议NIPS上以第一作者身份发表的论文。

他的研究主要集中在深度学习的优化与算法,特别是在自监督学习和图像生成方面。


02

参与的项目与贡献


在研究生阶段,田柯宇参与了多个重要项目,包括与字节跳动和牛津大学的合作,提出了名为SparK的算法。

该算法在卷积网络上成功实现了BERT/MAE形式的自监督预训练,标志着计算机视觉领域的一次重要进展。


03

学术成就与荣誉


田柯宇在本科阶段的表现也十分突出,他在北京航空航天大学的必修课排名中名列前茅,并获得多项奖学金和荣誉称号。北航软件学院大四推免至北大叉院,任书院梦拓/学院学委;潜心科研,已发表四篇高水平论文,含两篇 NIPS 第一作者(CCF-A类会议,四大人工智能顶会之首)并受邀担任NIPS/ICLR审稿人;专业分流排名前1%,大三学年GPA排名1/176,获国奖/三星奖学金/士谔奖章/软院之星/ACM区域赛银牌等奖项;参与中国留学基金委的Mitacs暑研、牛津大学远程科研等项目;在商汤科技、字节跳动公司累计进行超过两年的算法岗实习。

他已发表四篇高水平论文,其中包括两篇在CCF-A类会议上以第一作者身份发表的论文。

此外,他还参与了多个科研项目,并在商汤科技和字节跳动等公司进行实习,积累了丰富的实践经验。


04

VAR算法的创新与影响


最近,田柯宇与字节跳动的团队共同提出了一种新的图像生成方法VAR(Visual Autoregressive Modeling),该方法通过预测下一级分辨率来替代传统的自回归方法。

实验结果显示,VAR在图像生成质量和推理速度上均超过了现有的SOTA模型,尤其是在生成效率上提升了20倍。


05

未来的探索与发展


VAR的研究团队还观察到了与大语言模型相似的Scaling Laws,表明随着模型规模的扩大,性能将持续提升。

该项目的成果已经在GitHub上开源,吸引了广泛的关注和讨论。

研究人员希望通过这一创新方法,推动图像生成领域的发展。

- END -

推荐阅读

💡添加关注,获取更多AI热点资讯~💡

感谢您的阅读,辛苦您 点赞、在看、分享!

素材来源官方媒体/网络新闻
继续滑动看下一个
AI说热点
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存