AI治理必修第16刊|国产AI作画神器来了!日增5万用户的背后有什么秘诀?DeepMind攻克50年数学难题!
AI治理必修-10月(上)第16刊发布!
AAIG的专家们用多学科的专业视角,每月从全球收集和筛选关于算法治理和可持续发展的全球态势。重点关注算力时代的新技术、新风险、新实践、以及对它们新解释。
10月(上)共15篇文章3155字,分【本月洞察、行业动态、前沿技术、产业实践】四个板块展开。
基于多模态大模型+Diffusion架构的AI作图和作视频,以其优秀扎实的创作质量、光怪陆离的视觉冲击快速出圈,席卷全球,学界关注diffusion那充满想象力的模型架构、工业关注AI作图的效率与落地价值、而创业资本界则畅想未来AIGC的广阔商业蓝图。圈内圈外的繁华与狂欢神话了现有人工智能的边界,掩盖了许多目前架构的问题。
一方面,无法理解和生成反事实图片,例如“马骑着宇航员”等,这意味着AI生成内容是否具备艺术创新价值还是仅仅是现有元素的堆砌,这是存疑的,未来的版权、原创性问题,在资本商业化更进一步以后,可能会纳入利益分配的讨论范畴。
另一方面,深度模型的不可解释与不可控,该类AI具备着生成各种违禁内容的潜在能力,大大降低了黑灰产生成违禁内容的门槛,且违禁内容的多样性会更加广泛,可能对现有的管控机制产生很大的挑战。
《建议》是第一个关于人工智能的政府间标准,不仅补充了经合组织在隐私、数字安全风险管理和负责任商业行为等领域的已有标准,还聚焦人工智能领域的具体问题,制定了适用于所有利益相关者的一系列可实施的标准。它由两个实质性内容部分组成,分别为负责任地管理可信人工智能的原则和可信人工智能的国家政策与国际合作,意在推动用促进相关研究、保证对创新的经济激励措施等以人为行为为主的方式发展可信人工智能。
1.智能决策价值凸显。2.大模型成为AI开发新范式。3.人工智能开放平台助力实现普惠AI。4.联邦学习与可信AI走向落地实践。5.构建AI数字人队伍成为新浪潮。6.AI赋能的工业质检实现规模复制。7.AI for Science。
大多数获得图灵奖的科学家具有以下特征:白人,男性,已婚,美国公民,拥有博士学位。并存在四个特别有趣的现象:图灵奖获奖者的年龄逐年增加;大多数获奖者都没有主修计算机专业;家庭中的出生顺序与获奖者的成功密切相关;引用数并不像人们预期的那样重要。
1. DeepMind攻克50年数学难题!再登Nature封面推出AlphaTensor
DeepMind提出了AlphaTensor,并表示它是第一个可用于为矩阵乘法等基本任务发现新颖、高效且可证明正确的算法的人工智能系统。使用AlphaTensor能够发现新算法。这项研究揭示了50 年来在数学领域一个悬而未决的问题,即找到两个矩阵相乘最快方法。
本文介绍了视频卡通化的混合框架——VToonify,主要包括:1.视频卡通化方法需要克面对的挑战。2.VToonify工作原理。3.collection-based 人像视频风格转换。4.exemplar-based 人像视频风格转换。5.实验结果
本文介绍了一款「盗梦师」的微信小程序,它是一个能根据输入文本生成图片的AI平台,且兼容中英文的输入,属于AIGc的分支。在用户发挥想象,输入文字描述后,盗梦师便可生成1:1、9:16和16:9三种比例的图片,还有24种绘画风格可以选择。目前该小程序的普及速度极快,且会根据用户的行为进行算法能力的优化与更新。
阿里巴巴集团联合中国信通院编写了《人工智能治理与可持续发展实践白皮书》,全面总结了阿里巴巴在人工智能治理与可持续发展领域的实践。
以下分享第三章专题。
本文提出电商场景下反作弊的核心问题和挑战:1.黑产恶意对抗。2.作弊行为越发隐蔽。以及淘宝针对电商场景下作弊行为的治理实践:1.AutoRisk行为风控引。2.对抗训练提升模型鲁棒性。3.风险团伙挖掘。
2. 喜报!AAIG自然语言理解实验室7篇论文被EMNLP 2022录用
AAIG自然语言理解实验室从内容风控实际业务出发,抽象出文本对抗、情感分析、冒犯言论理解、多模态实体消歧等研究点,产出7篇论文被EMNLP 2022录用。
3. 谷歌多模态大模型PaLI:采用参数量为4B的ViT-e,效果超过BEiT-3
PaLI使用单独"Image-and-text to text"接口执行很多图像、语言以及"图像+语言"任务。本文是对大模型基础能力的建设与创新,它的关键结构之一是重复使用大型单模态backbone进行语言和视觉建模,以迁移现有能力并降低训练成本。本文介绍了PaLI模型架构和实验结果,各项指标基本达到了学界顶尖的水平。
4. 谷歌AI生成视频两连发:720p高清+长镜头,网友:对短视频行业冲击太大
本文总结了Imagen Video和Phenaki的特点和能力。Imagen Video的特点:1.高清,能生成1280*768分辨率、每秒24帧的视频片段。2.理解并生成不同艺术风格的作品。3. 理解物体的3D结构,在旋转展示中不会变形。4.仅靠简单描述产生各种创意动画。Phenaki的特点:1.它有交互生成视频的能力,可以任意切换视频的整体风格:高清视频/卡通,还能够切换任意场景。2.输入一个初始帧以及一个提示,便能生成一段视频。3.通过输入长达200多个字符,就能够生成2分钟以上的长视频,还具备故事情节。
5. 新出炉!谷歌AI#DreamFusion 从文本生成3D模型
DreamFusion是Google的大型AI图像模型Imagen与NeRF的3D功能相结合。它利用了NeRF生成3D视图的能力,并将其与CLIP评估图像内容的能力相结合。输入文本后,会经由CLIP评估,然后反馈用作NeRF模型的校正信号。这个过程中,从不同角度的评估反馈重复多达20000 次,直到生成与文本描述匹配的3D模型。
今日推荐
● 专题|维护电商平台信息真实和竞争公平《人工智能治理与可持续发展实践白皮书》
● AAIG成立一周年!砥砺前行,谱写新时代的科技之歌~请查收这份最新的自我介绍
● AI治理必修第14刊|AI画作获奖,但惹了众怒!英伟达、AMD恐断供高端GPU,中国AI计算或需另起炉灶!
● 听委员说|AAIG薛晖出席杭州市"两会",提出加快建立人工智能产业的多元协同治理机制
● 如何构建企业数据管理体系?AI产品出海有哪些数据风险?浅谈AI数据合规与风险防范实践(下)
● “算法偏见”是概念炒作吗?「这个AI不太冷」第3期带你揭秘现实AI!
更多人工智能治理和可持续发展好文点击下方名片关注和星标【阿里巴巴人工智能治理与可持续发展研究中心】👇AAIG课代表,获取最新动态就找她