查看原文
其他

与AI技术同行的2023年 | 红杉汇内参

洪杉 红杉汇 2023-04-26

[ 编者按 ]越来越多的企业开始拥抱AI技术——或是其用户在日常生活中逐渐使用AI技术,或是其应用AI来提高生产力、降低成本,或是其本身就是科技企业……无论是小微企业还是财富500强公司,几乎都在试图将AI技术纳入公司战略,以获得竞争优势。可以预见的是,在未来,AI技术将长时间占据主流的科技创新市场。


这样的趋势下,有哪些方向可供创业者参考?在即将到来的2023年,AI技术会有哪些应用趋势?AI会对行业发展产生怎样的影响?初创公司在数据缺乏的情况下,怎样来打造AI解决方案?


话不多说,本文将为你详细解答。


每期监测和精编全球高价值情报,为你提供先人一步洞察机会的新鲜资讯,为你提供升级思维方式的深度内容,是为[ 红杉汇内参 ]


2023年大有可为的AI创业方向

AI医疗健康行业

在医疗健康领域,AI正在蓬勃发展,尤其是以使用最新的AI技术帮助医生识别和跟踪患者的病情发展方面。

能源相关的行业

AI能通过学习来预测某一特定能源的使用状况以及未来所需的能源量,它将在一对一的混合能源应用过程中发挥作用,减少企业的投资和浪费,为企业提供更广泛的能源选项。

基于AI的在线学习应用程序

机器的阅读速度比人类快,而且人类和人工构造都无法形成心理图像和映射事实。因此,机器学习、能快速有效阅读和解释文章的AI初创企业便有施展能力的机会。

另外,因材施教也会让人学得更好、更快——人类可以让AI帮助创建个性化课程计划,在AI帮助下快速学习。AI应用还可以打造相应的个性化学习活动,通过测试,帮助人们在各领域提高自己的专业水平,获得更好的发展。

AI房屋设计

室内装修、建筑设计、景观规划等,都是潜力巨大的市场。有了AI后,房屋设计的各个领域,不仅能够降低所需的金钱成本,时间成本也会随之大大降低。

AI营销

营销是品牌打造过程中非常重要的一部分。但是,企业如果想要培养出优秀的营销人才,就需要投入大量的时间和精力,而且营销的手段、方案需要不断创新,这样才能达成满意的效果。

借助AI我们可以通过过往的营销数据和长期的专业积累来策划、预测、实践营销方案,它的投入回报率还是非常可观的。在「红杉Family」栏目中,我们曾介绍过这样的一家公司:《Mutiny:定制你的专属营销页面,仅需一瞬 | 红杉Family》。

招聘自动化

在企业中为每个岗位匹配合适的人选并非易事,特别是在大公司中,它需要走很多流程,需要时间、精力和资源,但AI能够在分析候选人的简历、匹配资历和经验等方面大大提高企业的效率。

另一方面,求职者也能受益于这样的技术——搜索时,AI可以为他们匹配更适合他们的工作机会。

AI内容创作

AIGC技术已经不是新鲜事了,而且目前已经从文字发展到了图片领域。一家AI内容生成的公司可以利用先进的深度学习,快速而不费力地制作几乎任何你能想象得到的主题内容。它的发展空间非常大。

基于AI的零售业

AI还可以应用于广泛的零售行业。比如购物App的个性化定制——AI虚拟助手可以帮助用户快速找到想要的、可能喜欢的东西,通过深度学习和AI,它们可以为每个客户定制个性化的购买体验。

根据《财富商业洞察》预测,从2021年到2028年,零售行业的AI应用率预计将以30.5%的复合年增长率增长,AI公司在零售行业将大有可为。它将会从以下几个方面影响零售业:

提高决策效率。预测需求、利润、损失、价格等都是AI非常擅长的事情。在AI的帮助下,零售商还可以更快、更高效以及更准确地维护和清理量化数据。

更智能的客户服务。AI客服、AI客户解决方案、AI智能产品测试……这些AI的应用正在帮助零售商以更智能的方式满足用户。

自动化流程。AI还能实现零售业务各个流程的自动化,包括制造、供应链、会计、人力资源等。AI不仅能帮助企业精简和规划流程,还能协同跨业务的执行;通过监测参数并分析,AI能为零售商提供更实用的产品路线图,以自动化的方式实现生产力的最大化;另外,自动化还有助于密切关注网络威胁、硬件故障、库存、价格、订单下发与交付等情况。借助AI的力量,零售商还能实现某些业务从下单、制造到产品交付的全流程自动化。

优化品牌关键词及定位。在现代市场上,零售商在网络上必须要有一定的存在感,并且要通过不断优化,让你的目标受众能更好地感知到你。具备更细致定位的企业会更容易被搜索引擎的算法青睐,通常也更容易被目标受众找到。AI可以根据各种数据,帮助企业寻找到更适合的关键词和定位。

目标营销和活动策划。AI还能根据顾客的购买行为数据,为他们提供更对味的广告,以更便捷的方式匹配品牌与消费者。此外,AI还能根据顾客的购买频率为他们定制优惠。

供应链管理。零售商的成功也取决于他们能多好、多快地将产品交付给客户。如今,大多数电商平台已经在其供应链管理过程中部署了AI技术,贯穿于各种流程当中,如库存管理、交付跟踪、产品需求等。其目的是能更好地针对客户的要求,让货物以最佳状态和最快速度交付给他们。


初创企业如何打造AI解决方案

就AI模型来说,在传统机制下,它需要大量的数据来学习、训练。但是,数据是需要经年累月积攒的,对于初创企业来说,如何在数据匮乏的情况下打造好的AI解决方案?
如今,新的AI技术正在兴起,即使没有大量的标记数据,也能训练基于神经网络的AI系统。下面,我们就来详细了解一下迁移模型和用未标记的数据来预训练模型的方法,以及以数据为中心的AI实践。

从神经网络如何学习聊起

在神经网络中,数据输入经由一系列数据层处理后,在每个阶段转换为新的特征表达(representation),并最终输出为一个预测结果。数据每流经一次中间层,它就会被转换一次,最后会根据需要输出一个或多个数字。这些经由每个中间层产生的输入的转换版本称为特征表达。我们还可以把特征表达看作原始输入的编码版本,而产生这些编码版本的层可以看作编码器(encoders)。

训练一个神经网络来解决特定的预测问题时,我们最终是希望它学会两件事:如何将输入数据转换成好的特征表达,以及如何从这些特征表达预测所需的输出。所以,我们可以复用特征表达来解决依赖于同一类型输入数据的其他问题——如果能找到输入数据类型相同的训练好的网络,我们就可以从中提取其特征表达,然后以此为输入,以我们的标签为输出,建立一个简单的模型。

由此,我们就不需要自己组建大量数据来训练初步模型了。

利用迁移学习重新利用神经网络

想要找到有用的特征表达,可以去看看是否有其他神经网络模型采用了相同的数据输入类型。

开发人员可以使用以前建立的、用相同类型的输入数据训练的神经网络作为新神经网络的训练起点。他们可以通过倒数第二层的原始神经网络,附加一个新的输出层,然后用一组不同的输出标签训练新的网络。

在训练这个网络时,我们可以只学习我们附加的输出层的参数,也可以更新所有参数。这个参数更新的步骤被称为微调(fine-tuning),而这整个过程被称为迁移学习(transfer learning)。迁移学习可以在显著减少标记数据的情况下打造出不错的AI模型。

举个例子,也许公司的另一个团队已经训练了一个神经网络,用于从评论文本中预测产品评论中表达的情绪。但是,你希望得到的输出标签是“改进/缺陷/两者都不是”。此时,这个情绪检测神经网络必须学习语言中有用的固定表达或评论文本中的特定词汇。在输入一则评论后,机器学习就会在各层生成新的特征表达,我们可以在倒数第二层追加新的特征表达,以此完成迁移学习。

用自监督学习训练神经网络

如果没有可用于迁移学习的预训练模型,我们可以通过未标记数据自己训练这样一个能产生良好特征表达的编码器吗?

事实上,“自监督学习”( self-supervised learning)的技术就可以做到。自监督学习的关键思想是,从未标记的数据中让神经网络自己生成一个“预处理数据集”(“artificial” data set),然后在这个数据集上训练一个神经网络模型。

它只需要两步:

第一步:把每个未标记的样本随机删除部分数据,得到的就是预处理输入(artificial input),被删除的部分则是预处理标签(artificial label),然后生成成千上万的“输入-标签对”(input-label(s) pairs)。

第二步:训练神经网络从修改后的输入中预测这些预处理标签——也就是填补空白。
在学习从剩余元素中预测被删掉的元素的过程中,神经网络学习了这些元素之间的关系,从而获得一个不错的特征表达。由此,我们便轻易获得了一个可以生成这些特征表达的编码器,然后再用珍贵的标记数据来做微调(就像在迁移学习中一样)。

当输入数据为自然语言文本或结构化数据时,上述的创建预处理输入-标签对的过程很有效。而如果输入数据是图像,则有另一种技术组合被认为是非常有效的:数据增强(data augmentation)以及对比学习(contrastive learning)的自监督方法,在这些方法中,神经网络会被训练成:稍微改变的图像副本具有相似的特征表达,但不同的图像则没有。

用自监督/对比学习建立一个编码器,然后再进行微调,可以用相对少得多的标记数据去打造还不错的AI模型。在一项涉及著名的ImageNet图像数据集的研究中,利用对比学习建立的一个未标记图像的编码器,在仅有的1%的标记样本上对其进行微调,最终居然比所有数据均被标记训练出来的模型更准确。

使用少量标记数据训练模型时,我们建议采用这样两个步骤:下载一个预先训练好的编码器,或者使用未标记的数据打造自己的编码器,然后再用珍贵的少量标记数据对编码器进行微调。

以数据为中心的AI:

优化数据,而不仅仅是模型

如果我们用宝贵的标记数据对预训练模型做了微调,但其性能仍无法满足需求,该怎么办?

一个非常有效的方法是:在一个良好的预训练模型的基础上去优化数据样本。即,以数据为中心的AI。

以数据为中心的AI,会着重于先解决标记偏差(inconsistent labels)的问题。因为在许多问题中,数据被标记上什么标签,很可能会受到标记者的主观影响。标记偏差在经过高适应性的AI模型后,有可能会被带到最终结果中,造成应用的准确度降低。那要怎么解决呢?

除了收集更多的标记数据外,还有一个更好的选择——变换标签后再重新训练模型。但如果想进一步提升,则必须收集更多标记样本数据来训练模型。需要注意的是,通常情况下,模型出错是会集中于某些区域的。此时如果能针对性地收集更多这一区域的标记数据,再用这些额外的数据重新训练模型,则可以更有效地改进模型,提高准确率。所以分析哪些区域出错概率更高非常重要。

以数据为中心的方法的另一个好处是,它为那些不精通AI/机器学习的其它领域的专家打开了大门,让他们也能为项目作出贡献。他们对数据的熟悉,可以帮助项目创建一个更有效的标记流程,解决标记偏差的问题,确定集中出错的区域,从而更有针对性地收集所需的标记数据;在模型部署之后,他们还可以帮助监测模型,以确保它继续有效,并收集新的训练数据,随着周围环境的变化重新训练模型。

将数据高效的AI实践引入组织

企业管理者可以在以下问题的指导下,与AI项目负责人一起探索AI解决方案:

• 要从哪里开始做模型开发?是预先训练好的模型,还是从头开始自己创建一个?
• 如果是前者,我们如何选择预训练的模型?怎么才能知道它是否适合这个项目中的输入数据类型?
•如果是后者,不从预训练模型开始的原因是什么?是否因为输入数据的独特或专有性质?如果是的话,我们是否要尝试用自监督或对比学习来建立自己的编码器?如果不这样做,理由是什么?
• 训练和测试数据的标签是怎么定的?我们如何检测和减少标记偏差的出现?
• 我们怎么分析建模错误并确定下一个针对性标签数据集(来优化标记数据)?
• 对于标签错误检测和模型错误分析,这些工作是否由人工完成?是否有机会通过引入软件工具使这一工作流程更有效率?



小贴士

#贝恩x凯度消费者指数新鲜出炉#
高端化、中端化和追求性价比三大价格趋势延续
近日,贝恩公司携手凯度消费者指数联合发布《2022年中国购物者报告》,分析了中国消费者在包装食品、饮料、个人护理和家庭护理这四大消费品领域的购物行为。以下是报告中提到的几点趋势:

▨ 包装食品和家庭护理品类进一步引领增长,主要归功于疫情期间消费者囤货需求的激增以及健康卫生意识的加强;个人护理品类增长趋势遭遇逆转,其中,彩妆品类领跌。

▨ 电商渠道增长失速,O2O渠道增势迅猛。小型线下门店业态和O2O商业在疫情之下乘势而起。其中,便利店和杂货店渠道增长势头强劲,同比增长9%。

▨ 平均售价延续紧缩趋势。追求性价比逐渐成为主流消费趋势。不过,在食品和饮料领域,消费者的大包装囤货行为对销量的刺激更为明显;在个人和家庭护理品类,消费者则更青睐低价产品和渠道。


▨ 快速消费品品牌制胜2023的三大行动方向:
①发现增长机会。伴随市场的动态变化和竞争的日益加剧,品牌必须打造全新增长引擎;
②提升效率。为了持续刺激消费需求、确保品牌与时俱进,品牌商应采取“边测试,边学习”的方式:不断优化营销效果,同时动态调整定价、分类、包装和促销,充分释放营收潜力;
③通过情景规划应对未来的不确定性。品牌商必须加强提前预测变化的能力,构建灵活性和韧性。可以借助情景规划,基于各项前瞻性指标和触发条件,针对不同事件制定应急预案。

▨ 零售商突围2023的三大行动方向:
①推动可持续的商业模式转型。鉴于零售行业整体面临持续的紧缩压力,零售商应当从以商品交易总额(GMV)和营收增长为重心,转变为注重利润率和运营的可持续性,可利用的战略抓手包括优化门店布局和SKU组合。
②通过独特的购物体验提高消费者忠诚度。面对零售市场的诸多挑战,零售商应聚焦核心消费人群,通过差异化的服务和跨渠道消费者运营提高消费者忠诚度,同时进一步着力打造线上线下无缝衔接的O2O渠道购物体验,为制胜市场奠定根基。
③依托独家商品打造差异化竞争优势。零售商应当构建差异化的产品组合,通过自有品牌或独家商品持续引流、拉新获客。



推荐阅读




HR数字化转型如何成就高绩效企业 | 首席人才官

「创新的复利」回顾 | 从技术成果走向产业的四个步骤:Design+Build+Test+Learn|Sequoia Event

彰显创新力量!多家红杉中国医疗成员企业亮相国际大展 | 红杉医疗头条

让人快乐的工作,应该是怎样的?| 红杉Family

你是不是一个高情商的人?| 红杉汇内参

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存