首页
下载应用
提交文章
关于我们
🔥 热搜 🔥
1
法明传[2024]173号
2
起源 解读 龚
3
中共中央
4
妈 分享 回
5
赵紫阳
6
中美友好合作故事
7
写小说
8
南京李志
9
百度
10
今日热点
分类
社会
娱乐
国际
人权
科技
经济
其它
首页
下载应用
提交文章
关于我们
🔥
热搜
🔥
1
法明传[2024]173号
2
起源 解读 龚
3
中共中央
4
妈 分享 回
5
赵紫阳
6
中美友好合作故事
7
写小说
8
南京李志
9
百度
10
今日热点
分类
社会
娱乐
国际
人权
科技
经济
其它
观察|官方通报陕西蒲城一职校学生坠亡:事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡
市管干部“龚书记”免职迷局
讣告!又一知名女星在家中去世,终年54岁,曾是无数人白月光…
近视的孩子有救了!国内最新近视防控矫正技术,不手术,扫码进群即可了解!
著名口述史学者Portelli的一部被忽视的口述史作品 | 一个工业小镇的传记:意大利特尔尼(1831-2014)
生成图片,分享到微信朋友圈
查看原文
其他
给王🤍凌打Call的,原来是神奇的智能湖仓
Original
亲爱的数据
亲爱的数据
2023-03-26
收录于合集 #人工智能漫画
20个
图文原创:谭婧(王❤凌老粉)
“爷青回”
“我们只是老了,并没有死。”
谭老师作为老粉,热烈庆祝“甜心教主”王
❤
凌成为现象级翻红顶流。
只要地球不爆炸,她的数据就一个都不能丢,还得用好了。
那为王❤凌从头开发一套大数据与智能系统吧?
答案,没必要。
不能把精力花在和IT基础设施你死我活地缠斗中。
就好比,当你的目的是去开会,那就不能去搭建会议室。
所以,这边建议电视台
:
把所有数据放到公有云上,使用无服务器架构(Serverless),将项目命名为 :
“王❤凌老粉打Call数据项目”
每一家云厂商都能拿出足够的资料来证明自己的产品才是最好的,我们不在此处争论。
方案技术选型上,一步到位,挑选一朵最大的,全球部署的公有云,方便❤凌文化出海。
用亚马逊公有云,全方位无死角给❤凌打Call。
首先,王❤凌的视频,音频,电视剧,演唱会等大批量历史数据,不存放在本地IDC上。
现在疫情,供应链紧张,硬件采购周期太长,电视台的审批流程也太长,不能等。
直接将❤凌的所有数据妥善存储在Amazon S3 数据湖中。
不同种类的数据都能存,量大量少都能存,而且不会丢,永远在数据湖里,安全,放心。
技术上,这些文件存进S3数据湖自动成为数据API,方便调用,标准一致,取用方便。
怪不得,有人称S3为事实上的云计算对象存储标准。
没有数据指导的业务,怎么可能做好?
领导着急看数,数据分析人员更着急,这个情况不允许发生,立刻配备云数据仓库Amazon Redshift。
联合查询的功能不能少:
比如,某电视台数据分析专家想查手机APP平台和大屏电视机顶盒观看平台的用户之间的联系。
Redshift
联合查询可以直接从手机
App
平台(已入湖),大屏电视机顶盒平台(基于数据库),获取数据的联系。
晚上九点,晚饭后,某一批用户在电视上反复观看王
❤
凌现场舞蹈(产生的行为数据存在数据库中,包括当时产生的很多标签)。
然后,我们直接查询一批用户在手机
App
中的观看过和这些行为数据中的标签相关的视频(这些数据存在数据湖里),比如标签里有“甜心教主” “电视剧”。
这两类数据存放在不同的地方,一个在数据库,一个在数据湖。如果之前没看过相关视频(“王
❤
凌男孩跳舞热榜”),就向手机
App
端推送。
实时智能分析必不可少:
先将历史数据和新鲜(实时)两种数据同时接入云数据仓库Redshift。
Amazon Redshift ML 使数据分析师和数据库开发人员可以在Redshift 数据仓库中使用熟悉的 SQL 命令轻松创建、训练和应用机器学习模型。
实时看板必不可少:
某电视台,没有设置王❤凌线上投票,实在令人遗憾,氛围感差些些。
建议电视台开展线上投票,并公开实时看板,让全国粉丝了解投票热度整体进展,即时知道投票效果。
所有产生的实时打榜数据,接入流式数据管道Amazon Kinesis,数据像水流一样一直灌进来。
并不是所有人时时刻刻在打榜,水流有大有小,而无服务器架构的Kinesis可以基于水流的大小即时弹性扩缩,无需关心流量高峰低谷,安心接入。
Redshift创建流式物化视图对接Kinesis,结合数据仓库内历史数据生成实时看板。
那些不能从电视台数据仓库里直接取数的外部团队,比如,抖音和快手,办法是电视台借助Amazon Redshift Data Sharing的功能,将数据安全共享。
查询并发高峰的时刻,Redshift并发扩展能力也能轻松应对。
总而言之,数据仓库性能越高越好,价格越便宜越好。
这就要靠云厂商的技术手段了,压力给到亚马逊云科技这边。
“王❤凌老粉打Call数据项目”项目,危险行为识别必不可少:
用日志分析服务Amazon OpenSearch,做链路追踪,监视黑产恶意刷榜,确保公平。
“王❤凌老粉打Call数据项目”
项目,数据库选型如下:
1. 如果王
❤
凌开直播,刷礼物的交易数据,先放入极致弹性的Amazon DynamoDB中,再将历史数据同步到Redshift数据仓库。
2. 手机APP用户浏览王
❤
凌视频的行为,记录等,也得存入非关系型数据库DynamoDB中。
本方案,为突发状况,准备了预案。
突发情况一:
突然,某天,要查询一遍过去十年的王❤凌数据,可能几十PB。
方法一:这种使用频率极低,又要分析海量数据,成本还要低的查询,就用Amazon Athena。
方法二,
搭建一个Hadoop系统。
但是,为了干这件事情,耗费的人力物力非常可怕,从头干起大约两个月。
在Athena里,查询按次按量计费,一定要查询的话,这笔费用可以出。
突发情况二:
“王❤凌男孩跳舞热榜”现象,让人始料不及。
跟风创作,
大量上传热舞视频。
实时处理这些视频并提取特征,为下一阶段分析提供数据,得用什么技术呢?
答案是,流式数据分析技术,Amazon Kinesis Analytics。
另外,历史数据怎么处理呢?
答案是,使用托管大数据平台Amazon EMR处理大规模历史数据,为❤凌的每一个历史视频都打上标签。
同时EMR Serverless以极简的开发来处理数据,同时实现最低的成本。
最后强调一句
,亚马逊云科技Serverless无服务器架构,很黑科技。
“王❤凌老粉打Call数据项目”方案的技术选型部分就介绍完了。
有任何好的方案建议,欢迎留言交流。
初听还是小学生,再听已是社会人,支持❤凌,致我们逝去的青春。
(完)
更多阅读
AI框架系列:
1.
搞深度学习框架的那帮人,不是疯子,就是骗子
(一)
2.
搞AI框架那帮人丨贾扬清独家专访(二)
DPU系列:
1.
造DPU芯片,如梦幻泡影?丨虚构短篇小说
2.
永远不要投资DPU?
3.
DPU加持下的阿里云如何做加密计算?
其他:
1.
我怀疑京东神秘部门Y,悟出智能供应链真相了
2
. 超级计算机与人工智能:大国超算,无人领航
3. 隐私计算:
消失的人工智能 “法外之地”
4
. 售前,航空母舰,交付,皮划艇:银行的AI模型上线有多难?
5
.
AI芯片公司:拿下“超级石油”,助力地质模拟和人工智能
6
.
两大榜单揭晓啦,2021年中国高性能计算机性能TOP100+国际人工智能性能排行榜AIPerf500
7
. “重型卡车自动驾驶,无量产,则无意义”赢彻科技CTO杨睿刚博士观点
漫画系列
1.
万字大稿深度解读硅谷风投A16Z“50强”数据公司榜单
2.
AI算法是兄弟,AI运维不是兄弟吗?
3.
大数据的社交牛逼症是怎么得的?
4.
AI for Science这事,到底“科学不科学”?
5.
想帮数学家,人工智能算老几?
最后,再介绍一下主编自己吧,
我是谭婧,科技和科普题材作者。
为了在时代中发现故事,
我围追科技大神,堵截科技公司。
偶尔写小说,画漫画。
生命短暂,不走捷径。
个人微信:18611208992。
还想看我的文章,就关注“亲爱的数据”。
"分享、在看、点赞、打赏、阅读原文 "五连都是爱~
您可能也对以下帖子感兴趣
{{{title}}}
文章有问题?点此查看未经处理的缓存