AWS re:Invent 2022的一些发布
上周的文章提到了我自己过去参加re:Invent的一些经历和感想,今天我们就来看看re:Invent上的关于数据、人工智能等等的一些发布。
01
Analytics
Redshift
我们都知道最近几年最为火热的数据仓库公司是Snowflake。不过说到基于公有云的数据仓库,Redshift无疑是具有里程碑意义的产品。我前面翻译过或者写过的关于现代数据技术栈的文章中,也有提到Redshift对于现在数据技术栈的意义。从2012年正式发布到今天,Redshift已经走过了十年的时间。在今年的re:Invent上,Redshift也有一些重要的发布:
Simple Data Ingestion - 可以自动地装载S3的数据到数据仓库中,文件格式支持CSV, JSON, Parquet,Avro。由于S3是非常适合做数据湖的廉价数据存储,通过支持从S3自动装载数据到数据仓库中,用户可以在使用数据的时候不用手工做数据装载,直接用Redshift的数据仓库操作就能分析数据了。
与Amazon的Aurora数据库的无缝集成。通过把Redshift与Aurora的无缝的集成,用户可以用Redshift近实时的进行大数据的分析和机器学习。Aurora的数据可以在事务完成后秒级延迟的自动同步到数据仓库中进行数据分析和建模,而不需要额外的ETL工作。
Streaming Ingestion for Kinesis Data Streams以及Managed Streaming for Kafka. 流式数据处理对于很多企业来讲越来越重要,新版本的Redshift通过Streaming Ingestion可以利用Redshift的物化视图秒级的查询Kinesis以及MSK的流式数据。
支持Multi-AZ部署,从而使得Redshift数据仓库的可用性进一步提高。
Dynamic data masking技术(preview),使得不同用户角色访问数据仓库时,可以有行级别和列级别的安全控制。
利用AWS Lake formation的Central access controls for data sharing,用户可以更方便的管理自己的数据的共享。
Amazon Redshift integration for Apache Spark - 支持Spark直接访问Redshift以及Redshift serverless。
AppFlow
Amazon AppFlow是Amazon推出的数据连接器,有点儿类似于Fivetran。AppFlow支持从其他的系统到AWS服务的双向数据集成,包括了常用的本地部署系统和SaaS。在re:Invent的的发布上,AppFlow新增加了22个连接器,包括Facebook Ads, Google Ads, Instgram Ads以及Linkedin Ads等市场营销的链接器。同时增加了Mailchimp,Sendgrid,Zendesk等邮件营销和客服服务连接器。
不过AppFlow到目前为止仅仅有50多个连接器,相对Fivetran, Airbyte, Dataddo等专门做数据连接的产品服务还是差距比较大的。如果一个企业的数据技术栈完全构建在AWS的服务上, 选择AppFlow更原生,也更容易集成。
AWS Glue Data Quality
AWS Glue是AWS推出的做数据ETL的工具,定位跟我们做的QuickTable有点儿类似。而AWS Glue Data Quality则是在AWS Glue推出的新的进行数据质量监控的新的feature。Glue Data Quality可以分析数据集中的数据,并且自动推荐一些质量规则,用户也可以自己定义质量规则。利用Glue Data Quality,可以全程对数据从接入到处理过程中进行数据质量的分析和监控。
Amazon Athena for Apache Spark
Athena是Amazon在2016年推出的用于对S3上的数据进行SQL查询的工具。底层技术是基于跨数据源进行分布式SQL查询的开源项目Presto。在今年的re:Invent上,Athena增加了对Spark的支持。实际上是在Athena上集成了Jupyter Notebook,让用户可以直接在Athena中去用Jupyter Notebook访问Spark。
QuickSight Q
Amazon QuickSight Q是亚马逊在Redshift推出的问答式BI产品。与ThoughSpot等等问答式BI产品一样,QuickSight Q支持用户用自然语言去问业务相关的问题,然后利用NLP去理解问题的含义,然后转化为对Redshift的查询。QuickSight Q可以通过人机交互来增强自己的机器学习模型,从而让用户使用的过程中去训练模型,让回答问题变得更准确。
Amazon OpenSearch Serverless
在ElasticSearch把自己的开源协议改为新的Elastic协议之后,亚马逊开始主导了Open Search开源,从而让自己能在云端提供类似于ElasticSearch的服务。在2022年的re:Invent上,Amazon发布了Serverless版本的OpenSearch,这样用户就可以不用自己去部署OpenSearch集群,直接通过服务调用就可以去使用大规模的搜索和分析了。
Amazon QuickSight Paginated Report
在如今使用数据的场景中,Report是一个非常常见的场景。比如每日的运营日报,周报,月报等等。Report不同于传统的Dashboard,一般是一种富文本类型的,包含了文字、图表、表格等等。比如我们QuickTable的文档功能就能支持各种嵌入,并且支持模板。Amazon也针对这个需求推出了QuickSight Paginated Report。QuickSight Paginated Report可以让用户创建富文本文档,从而把分析内容嵌入到文档中。并且文档支持分享,从而让内容分享给自己的团队去一起查看。
Amazon Transcribe Call Analytics
这个产品是亚马逊针对呼叫中心提供的数据分析解决方案产品。它可以实时的去把电话内容转变为文字,然后去分析客户的感受,从而了解客户的情绪。由于我曾经做过多年的售后服务,对于服务中的客户满意度的重要性非常的理解。毕竟获取新客户的成本都非常高,如果不能提供满意的客户服务让客户流失,对于企业运营来讲,是非常严重的问题。所以如果能在客户通话过程中就能发现客户的感受,从而能够及时的修正沟通内容,或者及时采用挽回措施,能够大大提高公司整体运营的效果。
02
Database
在数据分析领域,可以看到Amazon有非常多的发布。而在数据库领域,AWS也有一些新的发布。
Amazon DocumentDB Elastic Cluster
Amazon DocumentDB是兼容MongoDB的文档型数据库,非常方便存储Schema比较灵活的JSON格式类型数据。在今年的re:Invent上,Amazon宣布自己的DocumentDB支持无限扩充,从而让用户不用担心容量去使用文档数据库。相信后边不久,Amazon也会推出DocumentDB的Serverless版本。
Amazon RDS Blue/Green Deployment
数据库的蓝绿部署主要指的是数据库升级的时候,需要一个生产数据库Blue和一个备份的Staging数据库Green,这两个库要一直保持一致,从而使你在升级的时候能够测试和保证安全,避免数据库故障。不过一般情况下的Blue/Green部署都需要数据库工程师去花很久的时间去准备环境和验证,才敢在生产环境中去实施。Amazon RDS Blue/Green Deployment是RDS的新的特性,用户可以非常简单的部署一套Blue/Green环境,而且可以保证遇到问题时,Green环境平滑的升级到生产环境中。这无疑能大大地提高企业升级数据库的效率,降低风险。
Amazon Trusted Language Extensions for PostgreSQL
由于PostgreSQL非常容易支持扩展,因此越来越多的公司和创业团队采用PostgreSQL作为自己的数据库。在re:Invent上,Amazon宣布了对Aurora PostgreSQL和RDS PostgreSQL的可信任语言拓展。用户可以采用Javascript,Perl, PL/PG SQL等可信任语言去扩展PostgreSQL的能力。TLE是采用Apache协议的开源产品。
03
总结
每年的re:Invent,Amazon都会发布不少不同的产品。作为全世界最大的公有云平台提供商,AWS在数据分析、数据库领域也有非常多的出色的产品。很多产品的发展方向也代表了行业的方向。通过了解Amazon发布的这些产品,对于我们从业者来讲,无论是使用,还是寻找创业方向,都有很大的帮助。