DataFunTalk

其他

第五要素|大模型时代,数据治理与AI相互依存形成闭环

本文转发自澎湃新闻科技频道头条●大模型和数据治理是一个闭环,不断迭代,两者互相依存。目前没有比大模型更加高效的数据分析和挖掘方法。反之,数据治理工作结束后,可以将这些更好更多的数据喂给大模型。●“我们经常讲‘人与数据’的概念,即所有的数据都是人产生的,所有的问题也是人造成的,如果不把人的关系理顺,数据是管理不好的。所以这个挑战是之前的挑战、现在的挑战,也是未来的挑战。”【编者按】数据,是继土地、劳动力、资本、技术四大生产要素之后的第五大生产要素,中国政府已提出要加快培育数据要素市场。随着人工智能技术的飞速发展,大模型的开发更离不开高质量的数据支持。在此背景下,澎湃科技(www.thepaper.cn)推出“第五要素——上海市数据科学重点实验室数据要素产业化系列报道”,关注由上海市数据科学重点实验室策划的数据要素产业化系列论坛。第一期数据治理论坛主要聚焦数据治理的最新动态和前沿趋势,探索数据治理的规则与边界。数据要素产业化系列论坛第一期“数据治理论坛”现场“我们在进行数据治理的过程中,遇到了两个挑战:第一,数据多而分散,质量参差不齐,数据治理难度大;第二,不同粒度的数据难以有效融合,行业知识和中观数据(即行业、部门数据)价值被低估。”10月8日,在数据要素产业化系列论坛第一期“数据治理论坛”主旨演讲环节中,蚂蚁集团网商银行算法专家潘岩分享了网商银行在数据治理过程中遇到的挑战。光明食品集团数据治理高级经理雷晓川则从自己的经验出发总结称,数据治理单纯依靠技术无法解决,其中管理和沟通占据70%以上的工作,特别是传统行业大型集团型企业,IT系统差异大,业务和组织复杂度高,需要数据治理人员加倍耐心与各层级各条线沟通,深入理解业务,以布道者和服务者的姿态逐步推进数据治理的深入。香港科技大学潘奥托工程学教授及计算机科学与工程讲座教授周晓方在其主旨演讲中指出:“AI大模型能够赋能数据质量管理。虽然大模型本质上是一个统计模型,很容易产生不稳定性,数据库要求可控和可解释,但这个矛盾可以通过知识图谱和向量数据库来缓解。”中国人民大学数据工程与知识工程教育部重点实验室教授范举则提到:“数据融合与清洗是数据有效利用全流程中的核心任务之一,也是未来大模型(LLM)可以赋能的一个重要领域。”数据融合与清洗是指将多源多模态数据整合为统一的数据视图,并发现与修复数据中可能的错误(如数据不一致、缺失值等),从而提升数据的整体质量,更好地释放数据的价值。上海市数据科学重点实验室主任、复旦大学教授肖仰华随后主持圆桌环节,专家学者和企业家更为深入地讨论了数据治理当前面临的挑战,如何应对这些挑战,以及大模型在其中可能发挥的作用。以下为圆桌实录,有部分删减。肖仰华:在数字经济和大模型快速发展的背景下,数据治理新的挑战有哪些?阿里数据流通与治理平台算法总监及负责人刘洪:在我和我的团队以及业界的一些朋友交流后,我可能更悲观地认为,数据治理还是非常传统。为什么传统?因为不重视,而不重视的原因是我们对数据治理的认知是有问题的,大家还是把数据治理等同于传统的数据清洗。在这样的认知下,在公司里除非被迫,如老板要求服务器成本必须降,才会有人去做这件事。这就变成了一种硬性指标,缺乏原生的驱动力,而是被动去干“脏话累活”。如果把数据治理等价于脏活累活,那这个领域怎么可能有很好的发展呢?两年前我们在思考,未来的数据治理应该是什么样的。我们当时就提出来数据治理要安全合规、清晰透明,公平多样、高质高效,这四个最为根本。于是你会发现,任何一个领域只要抓到最根本的这四点,它永远都有很强的技术力,因为它有很多问题需要解决。当你把这个事情想清楚,数据治理就不可能是一种很低价值的事情。蚂蚁集团网商银行算法专家潘岩:我非常认同刘老师的观点。实际上我在具体项目里也发现,比如老板给一个项目且要求今天做完,那么你一定不会想先去做数据,首先想到的是先做出一个能上线的模型。所以对数据的不重视是数据治理的一个最大问题。另外,可能也是有心无力,尤其是大企业,其历史发展时间太长,以往的一些代码产生的问题数据没办法丢掉,只能在其错误数据基础上不停迭代,但其实应该是有办法做好数据治理的。蜜度科技微热点研究院副院长王昉:目前对企业来说,数据很多情况下都是封闭的,存储在自身企业数据库中,只服务于目标客户。但如果数据开源化,企业会面对更多的数据,数据的流转速度也会更快,所以在数据的安全性和合规性方面都有更高的要求。比如我们在加入大模型语料数据联盟(今年7月,上海人工智能实验室等单位在世界人工智能大会开幕式上联合发起的中国大模型语料数据联盟宣布成立)时,第一批计划发布的开源文本数据集“蜜巢·花粉1.0”准备了超过1亿条数据,但出于在安全性、合规性上更谨慎的考虑,经过层层筛选审核,最终只发布了7000多万条。此外在考虑数据开放时的一个新的挑战是有需要前瞻性判断,比如有些单点数据看上去没有什么敏感性,但如果将批量数据结合起来看,如政务数据,按照时间轴去看可能会透露一些重要的信息,国外现在有很多开源情报机构会利用这些数据专门研究其他国家的政策或长期走势。所以我们在开放数据的时候需要提前做出判断。StartDT(奇点云)合伙人、资深战略咨询专家何夕:数据治理可以分四个层级来看,第一层是战略问题,第二层是结构问题,第三层是机制问题,最后才是技术问题。首先是战略问题。现在大部分公司其实是以物质生产为基础,即公司的所有框架都以物质生产消费为基础,比如车企基本就是研发、制造、流通、销售。互联网公司构建的体系是以数据生产和消费为基础,比如字节跳动的整个商业模式以算法为中心,从设计算法,收集数据,迭代算法,最终产出业绩,从而将数据生成和消费提升到战略级部署。目前当很多企业的战略开始从以商品为中心转到以客户为中心时,其面对的第一个战略问题即——要采集什么数据,要产出什么样的结果。第二层是结构问题,及业务、技术和组织的匹配性问题。在企业,如果不能让业务成绩变成可衡量的内容,不管治理得多好,企业也很难认可你的工作。所以在企业,大部分数据治理的项目都是以给高管做驾驶舱为开端,这是一个可见的、典型的代表。其次技术上存在一个碎片化供给和碎片化消费的问题。供给需求,即在对接系统时,比如SAP(企业管理解决方案的软件),每一家企业存在的问题都不一样,前端对接数据源时也可能千奇百怪。因为在中国有很多标准,所以很难对接数据,每一家都有各种谈判和商务性的问题。第三层是机制问题,即建立什么样的标准和流程,用什么方式去实施管理动作的问题;第四层是技术问题,即平台需要具备什么样的功能,需要在平台上沉淀。基本上数据治理的复杂性就在于层层都有问题,层层都要解决,任何一层解决不好都会导致最后没有产出。目前国内数据治理做的不好还是因为“不够痛”,第一是数据量太少,根据以往经验,一般公司只要数据用起来,数据的增长速度在一年涨一倍、两年涨三倍、三年涨七到九倍的范围。一旦数据开始增长,会出现存储费用高的问题,这时企业会意识到必须要做治理、降成本、做运维。另外,数据治理还有一大挑战,是任期问题,即数据治理工作能否被长期坚持。兰迪律师事务所高级合伙人、兰迪数字经济团队牵头人丁学明:首先和大家分享3个数据:30万、1亿、10亿,去年7月,上海疫情解封后的第一个月,上海数据交易所的交易额是30万人民币,截至去年年底上海数据交易所一整年的数据交易额是1亿人民币,今年(2023)上海数据交易所的交易额目标是10亿。我们律所作为上海数据交易所的合规服务商,参与部分数据产品挂牌的合规审核服务,在我看来,从法律角度也存在一些阻碍数据市场要素发挥作用的瓶颈,下面我给大家简单汇报一下。第一类,企业数据的合规流通利用,即企业运营过程中产生的数据。这些数据如果做合规性检查,只需判断有没有核心数据和重要数据,如果没有这样的数据就可以进行交易,因此来说,企业数据的流通利用法律障碍相对较少。但法律上的障碍少并不代表企业的交易意愿高,大部分企业不愿意交易自己的数据。仔细研究在上海数据交易所里完成交易数据的主体,他们大部分交易的不是自己的数据,而是自己的能力。因为目前企业最大的顾虑在于,数据是其核心竞争力的一个表现,如果将核心竞争力拿出来交易,它们就失去了竞争力,本质上是担心目前的交易环境无法保证数据交易后的安全。第二类是个人数据的合规流通利用。个人数据在很多行业具有较大价值,例如在广告行业、金融行业,个人数据可以用来精准营销,也能精准风控,比如任何一家贷款应用程序(App)都会根据个人数据进行额度设定。但我个人理解我们现有的个人信息保护法是不鼓励个人数据的交易,为什么这么说?这涉及个人数据对外提供或者共享的合规要求。个人信息处理者如果收集个人信息并要将这些数据传输给另外一家合作企业,需要得到平台用户的同意,但在实际的应用场景中,如果要和多个公司做交易,改变生意伙伴,就需要平台用户频繁授权,这对用户体验很不好。更重要的是,很多个人信息无法很便捷地接触到授权场景,比如医院,医院刷卡的设备是无法弹窗提示要求授权的。第三类是公共数据或政务数据合规流通利用,有调查显示,对整个数据交易市场来说,接近80%的优质数据在政府手中,这些优质数据才是市场上数据需求型企业特别想要的数据,但直到目前为止政务数据的开放存在两个问题。第一是立法的问题,即有没有一个上位法(按照法的效力位阶可分为三类,即上位法、下位法和同位法)来规定公共数据或政务数据的开放规则或者授权运营规则,只有部分省市在小范围的试点,但目前没有看到明显的效果。第二是提供方式上,很多人期望政务数据在保护个人隐私和确保公共安全的前提下直接开放原始数据,这样才能刺激对数据的创新利用。而不是以模型、核验结果等产品和服务等形式向社会提供。但目前主流的观点是,公共数据或政务数据要确保“原始数据不出域、数据可用不可见”。所以政府数据到底应该怎么用,有没有一个广泛接受的标准,目前还没有明确。全球数据要素50人论坛专家、DAMA数据管理专家马欢:我觉得数据治理的挑战不是新形势下才出现的,而是一直以来都存在的。虽然数据治理经常会被认为有点基础,但其实治理这个词本身是个非常高级的词。治理和管理这两个词在国内外都有层次上的差异。治理本身属于管理的一部分,但我们现在把治理这个词用得太频繁且用错了语义,把一些基层管理数据的工作也叫做治理。所以听的人也云里雾里,好像数据治理工作感觉很高级,但实际做的事情又很基础。所以我觉得是对治理这个概念没有理解清楚,首先我们需要把这个词的概念扭转过来才能更名正言顺地谈论这件事。第二,治理这个词本身关注的是人,具体的数据怎么管是在此基础上再考虑的事情。我们经常讲“人与数据”的概念,即所有的数据都是人产生的,所有的问题也是人造成的,如果不把人的关系理顺,数据是管理不好的。所以这个挑战是之前的挑战、现在的挑战,也是未来的挑战。另外,刚才提到互联网公司的成本治理,为什么他们会做这样的成本治理,因为其存储的数据多、各种备份多,磁盘量大,如果数据用的次数多了,成本就会翻倍,所以要求降低成本,这个属于业务上的驱动。当真的有这样业务上的驱动时,才是真的在做数据治理。如果没有业务驱动,大家只是在耍花枪打花架子,有业务驱动了,需要降本增效的业务要求,才真的是治理和业务并行。这也是我们强调的一个理念,数据治理不是单独的一件事情。上海市数据科学重点实验室知识工场执行副主任,复旦大学计算机科学技术学院研究员、博士生导师李直旭:在高校做数据治理研究需要注意两方面的问题。第一是高校本身没有真实的数据和场景。如果高校真正要做关于数据治理方面的研究,并且将研究成果落地,需要和企业合作,了解相关的业务以及内部的逻辑。如果单纯从研究层面说,目前很多高校的数据治理研究可能还停留在基于公开数据集的学术探索层面,但是企业的很多实际问题是在开源环境下并不容易解决的,更多的解决方案要在闭源环境下进行。所以,当前高校的数据治理还要和企业进行更深度的合作。第二是数据治理人才的培养体系。数据治理其实是一个很综合的问题,涉及到技术、管理、经济、法律等一系列学科知识,但是高校各个学科的培养体系是独立的。目前高校也在提倡交叉培养、交叉融合,而数据治理这个方向本身也值得做一个交叉方向,为企业未来输送更多的数据治理综合性人才。肖仰华:数据治理难在其是系统工程,涉及企业的方方面面,包括技术、组织、战略、结构。目前以ChatGPT为首的大模型席卷一切,似乎给数据治理的相关研究带来了一些希望。ChatGPT能够发现数据中存在的隐私、合规等问题。那么人工智能和数据治理深度结合的过程中有哪些机遇和挑战?刘洪:目前虽然GPT-4(OpenAI研发的大语言模型)的表现已经惊艳世界,但它还有很多能力没有被解锁。大家虽然都知道大模型其实就是一种编码器,把世界的知识编码到一个信息体中,但如果想把如此庞大的东西释放出来,实际上我们也不完全知道怎么去解码,所以才出现各种指令微调、示例学习等方法。但很奇怪的一件事是,大家更多专注在怎么建大模型,却很少聊怎么去用,或者说怎么解码、利用这些大模型的能力,我认为这是一个有问题的地方。甚至大家会觉得用一些方法从大模型里得到一些非常好的prompt(提示词)从而对模型效果带来极大的提升,这样的工作只是一种trick(雕虫小技),这种观念我觉得是有问题的。大模型做出来就是这么一个信息体,并不需要满世界的人都去做大模型,就应该百花齐放地让大家从中解码出不一样的东西,比如生成prompt用于自己的下游应用,生成更高质量的示例等。所以我觉得首先第一个观念的转变是从编码到解码。目前学术界也开始从大模型的建设转向大模型的应用或解码方面,我觉得这样会发现更多有价值、可以直接应用的内容。因为哪怕能做出一个千亿万亿参数的大模型,对一个小公司来说,把这个方法传给它,它也是做不起来的,但
2023年10月28日
其他

知乎的缓存加速:Presto的进化实战(长文解读)

的代码,并进行了大量的代码移植来满足这个需求。在审计日志方面,我们可以利用引擎自动解析出的库表信息、排队信息等,来进行血缘分析、库表行为评估、饱和度分析等深入的数据分析。然而,PrestoDB
2023年10月27日
其他

AI基础软件:如何自主构建大+小模型?

相似,提供了一个一键式分布式训练环境,包括DeepSpeed、Megatron、MosaicML等多种分布式训练环境,以及图优化、梯度累积等关键要素。在这个架构中,入口是数据管理,包括数据标注和
2023年10月26日
其他

PPT 下载|因果推断峰会

如果网盘文件夹为空,说明讲师PPT需做脱敏处理或走公司审批,我们会在直播结束后【1周内】上传完毕。👉网盘链接获取方式:
2023年10月25日
其他

探索大模型技术在自智网络方向的应用前景(推荐收藏)

"这条数据异常“87.4%进一步的,输入多种任务训练数据,通过微调训练得到混合任务模型,并对该模型进行多任务推理测试,测试评估结果如下。任务Prompt格式测试集准确度根因分析"prompt":
2023年10月25日
其他

广告策略系统设计(文末赠书)

文末有赠书活动广告系统根据业务过程可以分为广告投放与广告播放。广告投放包括一些对外界面和接口,例如审批、CRM、广告位管理、运营数据分析等系统;广告播放包括广告数据库、广告发布数据流、广告检索、广告粗排、精排等系统,其中粗排与精排属于广告系统策略的重要模块。图7-3广告系统架构图7-3所示为一个广告系统架构,其中AD
2023年10月24日
其他

阿里巴巴数据模型设计与构建实践

智能数据建模在产品建设过程中的一些思考。文章主要包括四大部分:1.阿里巴巴数据需求流转介绍2.阿里巴巴数仓建模最佳实践3.阿里巴巴数仓建模实操演示4.数据模型应用-数据资产介绍分享嘉宾|爱桐
2023年10月23日
其他

B站数据质量保障体系建设与实践

端和移动端的数据应用。我们着重关注埋点分析看板,包括增长、运营、内容等方面的数据展示。我们可以看到数据的流转管道,即数据管道,已经扩展得非常庞杂。与传统的数据仓库不同,质量保障不再仅仅基于单一的
2023年10月22日
其他

PPT 下载|数据产品经理峰会

如果网盘文件夹为空,说明讲师PPT需做脱敏处理或走公司审批,我们会在直播结束后【1周内】上传完毕。👉网盘链接获取方式:
2023年10月22日
其他

轻松利用日志动态分析平台玩转Nginx运维管理

导读Nginx运营管理是个通用的、普遍的应用场景,开发团队会使用不同的工具去实现这一需求。炎凰数据使用鸿鹄平台实现了基础版的Nginx运营管理,最终达到了较好的效果。本文将分享炎凰数据如何使用鸿鹄平台搭建上述应用系统,并分享这一过程中的最佳实践方式。本次介绍会围绕下面几点展开:1.
2023年10月21日
其他

度小满自动机器学习平台实践

相关技术。从各个步骤需要的技术栈可以看出,很难有一个或者两三个技术人员完全掌握所有的技术,并且每一个涉及人工的步骤,都是造成生产不稳定的生产瓶颈。而使用机器学习平台可以解决这两个问题。4.
2023年10月20日
其他

PPT 下载|数据产品经理峰会

如果网盘文件夹为空,说明讲师PPT需做脱敏处理或走公司审批,我们会在直播结束后【1周内】上传完毕。👉网盘链接获取方式:
2023年10月20日
其他

《业务数智化》:数据从业者如何高质量转型(文末赠书)

公司和个人的困境无论是普通员工还是管理者,最关注的问题就是如何达成业务目标。达成目标意味着帮助公司解决“吃饭问题”。在解决“吃饭问题”的过程中,遇到的困境有两种:努力了,白努力:在对业务进行各种大刀阔斧的改革和尝试后,业务总是不见起色;降本增效过程中无意间影响了业务的核心命脉。目标设定的方式是否科学可行?业务分析的方法是否是合理的?是否真正定位到了问题的原因?上述每一个问题都会影响业务目标是否可以达成。从而造成“努力了白努力”情况。想努力,怕失败:想找到正确的方法去定位和解决业务问题,但是非常担心失败,没有成熟的落地案例借鉴。目前我们所处在一个特殊的历史周期,现在的主旋律是利用数字进行高质量发展。如果现在不转型,企业后续会面临更多问题。就像当年的诺基亚错失移动互联网的时机一样,被时代逐渐遗忘。(上述问题在《业务数智化》第4-11章详细说明对应的回答)关于个人的困境:竞争过于激烈导致“内卷”,如何在这种情况下持续自我成长?这里大家比较容易产生的问题有:只要我学了,无论学什么都是对自己有用的只要火爆的,无论学什么都是对自己有用的到底学什么才能保证自我成长?学自己需要的+学未来可能的!学自己需要的东西:哪些对我的工作有帮助?学定向专业知识、跨部门合作、沟通的技巧、项目优先级设定等等,做到学以致用。学未来可能的东西:高质量发展下的大环境,必然需要利用数据去发现和解决问题,做到顺应趋势。这些都离不开体系化的科学思考方式,数智思维会帮到你。(《业务数智化》主要都在回答这个问题:科学的数智思维如何搭建起来并落地运用的?)怎样用科学的体系进行高质量落地我们举一个比较形象的例子来理解数字化和数智化的关系。今天想做一道土豆炖牛肉,做法分为以下两步。第一步:买一些土豆和牛肉,把它们都洗净、切好。→
2023年10月20日
自由知乎 自由微博
其他

九章云极DataCanvas多模态大模型平台的实践和思考

NoSQL数据库中的CRDT支持实践国产开源湖仓LakeSoul--数据智能的未来方向数据湖与实时数仓应用实践快手内容冷启动推荐模型实践大语言模型在推荐系统的实践应用
2023年10月19日
其他

开源数据库 MatrixOne 的 HTAP 分布式架构演进

用户体验计划。这是我们为一些即将有合作意向的客户提供的一个专属的计划。参与该计划,可以获得最新的功能发布信息;并且可能得到匹配您的业务场景的定制;甚至可以参与到产品的设计当中。目前0.8版本,处于
2023年10月17日
其他

信息流场景下的AIGC实践

模型由两部分组成:编码器和解码器。编码器将输入文本转换为一个固定大小的向量表示,然后解码器从该表示生成输出序列。在这个过程中,模型可以学会识别并提取与封面图相关的关键信息。具体做法如下:使用带
2023年10月16日
其他

电信网络运营事件知识图谱构建

智行云网大脑技术负责人编辑整理|张存旺出品社区|DataFun01电信网络运营场景首先向大家介绍下电信网络运营的背景:电信网络运营场景介绍网络运营知识来源基于知识图谱的智能网络运营技术方案1.
2023年10月15日
其他

Abase2: NoSQL数据库中的CRDT支持实践

log也会有定期的GC回收机制,在这个过程中就使用了混合逻辑时钟的因果关系保证,它能保证一旦混合逻辑时钟时间戳之前的日志完成了同步,那就保证之前日志数据不需要了,未来不会再产生时间戳更小的日志。2.
2023年10月14日
其他

PPT 下载|数据产品经理峰会

如果网盘文件夹为空,说明讲师PPT需做脱敏处理或走公司审批,我们会在直播结束后【1周内】上传完毕。👉网盘链接获取方式:
2023年10月13日
其他

国产开源湖仓LakeSoul--数据智能的未来方向

变更时自动兼容读取表的旧数据等功能;被测系统支持计算与存储能力的弹性扩容;支持对同一个表的同一个分区进行并发写入更新。多源数据实时入湖包括以下能力:数据库多表实时入湖、Kafka
2023年10月13日
其他

内推 |【京东】数据分析/挖掘/策略招聘【base成都、北京】

在招职位:数据分析/挖掘/策略招聘【base成都、北京】公司:京东工作地点:成都市武侯区机投镇京东西南总部大厦📮简历投递:邮箱:(投递格式:DataFun-职位-姓名)fengmingchao@jd.com职位描述:1.对领域、场景进行行业分析,挖掘用户行为特征并搭建用户画像,为精细化运营以及用户分析提供支持;2.结合业务场景,梳理业务目标并拆解,通过海量数据分析和数据挖掘,发现潜在的缺陷和机会,为业务决策提供数据支撑;3.通过模型和分析,参与到产品、研发等的实验设计、效果改进和数据建模中任职要求:1.本科及以上,数学、统计学、管理科学、计算机等专业背景优先;2.熟练使用SQL/Hive
2023年10月12日
其他

数据湖与实时数仓应用实践

平台的未来规划包括以下几个方向:首先,我们将继续致力于构建高性能、低成本、易使用的大数据平台。其次,我们将提升数据湖内部的数据服务性能。目前我们的数据服务在高并发情况下仍有待提高。第三,我们计划统一
2023年10月12日
其他

快手内容冷启动推荐模型实践

空间,然后是自增强节点只保留热门视频,去除学习不充分节点引入的噪声。有了这个升级之后,泛化性整体上得到充分保证情况下,有效提升了模型的个性化程度,并带来了离线和在线的效果提升。上述方法其实都是从
2023年10月11日
其他

PPT 下载|数据产品经理峰会

如果网盘文件夹为空,说明讲师PPT需做脱敏处理或走公司审批,我们会在直播结束后【1周内】上传完毕。👉网盘链接获取方式:
2023年10月11日
其他

大语言模型在推荐系统的实践应用

是什么,大语言模型可以告诉我是题材、演员、导演等等。换一个其它的推荐场景,大语言模型依然可以输出,人工再检查一遍,查漏补缺把关键的子因素定下来,然后把这些关键的子因素输回到下一步
2023年10月10日
其他

网易大数据智能运维平台 EasyEagle

EasyEagle。主要包括以下三个方面:1.大数据集群现状——产品孵化的背景2.产品核心能力介绍——核心功能,主要解决的问题3.产品后期规划分享嘉宾|范欣欣
2023年10月9日
其他

PPT 下载|数据产品经理峰会

如果网盘文件夹为空,说明讲师PPT需做脱敏处理或走公司审批,我们会在直播结束后【1周内】上传完毕。👉网盘链接获取方式:
2023年10月9日
其他

内推|【快手】知识图谱-算法专家(社招)

在招职位:快手-知识图谱-算法专家(社招)公司:快手工作地点:快手办公区📮简历投递:邮箱:(投递格式:DataFun-快手知识图谱-算法专家-姓名)
2023年10月9日
其他

(一文读懂大数据行业)-面向百度商业数据产品的全流程 DataOps 实践

平台,构建相关的流程工具套件如集成、建模、开发、运维、监控等,结合计算框架、统一网关、血缘采集探针等中间件,并基于数据血缘建设包括全链路运维、全链路可观测性、全局监控分析等进阶治理能力。03全流程
2023年10月8日
其他

限时免费《因果推断》电子书领取中!

《因果推断》电子书限时免费领取中!目录免费领取方式:邀请两位好友报名“因果推断在线峰会”即可免费领取参与前请先关注服务号【DataFun】,后续奖励会通过服务号自动发放。①
2023年10月7日
其他

阿里巴巴数据稳定性治理实践

厦门象屿内容校对|李瑶出品社区|DataFun01阿里在数据稳定性保障中遇到的问题1.
2023年10月7日
其他

音乐驱动数字人技术详解

BlendShape,输入测试文件及干声数据,干声来源于两个部分:一是之前用户唱的优秀作品干生;二是歌曲原唱,通过技术提取原唱的干声,然后把各式文件和综合干声,通过前面的口型驱动模型,得到预设
2023年10月6日
其他

数据科学在腾讯内容生态中的应用

分布如图中雷龙的样子,在较小的范围里相对小的值有很高的概率出现,而右边的尾巴很长,极大值可以很大,但出现的频率却很低。在这样的分布里,因为存在极大值,所以其均值大于中位数大于众数。举一些例子:①
2023年10月4日
其他

MiniGPT-4:使用先进的大型语言模型提升 AI 视觉语言理解能力

forest。在这一阶段,我们大概使用4张A80、A100的显卡跑了10个小时,我们的模型就能够看懂图片。接下来我们给出一个示例,输入一张图片,内容是一个人和一只狗,模型能够输出A
2023年9月26日
其他

主动学习以及样本不均衡在图数据场景的探索

高级研究员。本科毕业于中国科学技术大学自动化系,博士毕业于新加坡国立大学工业系统工程与管理系。主要研究方向为机器学习,表征学习在序列数据、图数据的研究和应用。她的相关成果申请专利多项,并在
2023年9月21日
其他

网易伏羲游戏AI Bot的拟人化和风格化:AIGA赋能游戏探索

Bot。这个AIBot只会投三分球,或者更准确地说,它会在游戏中尽可能地去投三分球。在游戏画面中,我们可以看到这个AI的角色是库里。了解篮球的人应该清楚,库里的三分球能力是非常出色的。因此,这个AI
2023年9月18日
其他

运维、成本、安全,大数据处理技术三大挑战,如何解决?

尽管大数据发展到现在,已经有了一定的技术和商业积累,但还有很多难题等待我们解决。在众多的难题中,亟待解决的主要挑战有:运维挑战、成本挑战和安全挑战。如何应对这些挑战?有没有具体的解决方案?针对这个问题,笔者与在亚马逊云科技任数据架构师的朋友
2023年3月28日
其他

T3 出行基于 Hudi+Kyuubi 的现代技术栈探索

过去的几年里,随着大数据的进一步发展,现代数据栈的生态愈加丰富完善,而数据湖在这期间几乎已成为现代数据栈的必备品,它的出现大大简化了用户管理数据的难度,让用户更加关心于数据本身,而非组件本身。T3
2023年2月25日
其他

Presto+Alluxio 加速 Iceberg 数据湖访问

加密,我们不再需要第三方的加密,也不需要对整个文件加密,可以只对需要加密的一些数据进行加密,这个方案也解决了另外一个重要的问题,就是有的公司其实是整个文件来加密存放在
2023年2月24日
其他

腾讯Alluxio(DOP)在金融场景的落地与优化实践

所以面向人群更广,不仅包括数据分析人员,还有产品、运营等等,对耗时敏感度也会更高。本次主要介绍全民BI。为支持日益增长的各类分析场景,今年腾讯金融业务数据团队进行了大的架构升级,引入了
2023年2月17日
其他

Alluxio在蚂蚁集团大规模训练中的应用

欢迎来到【微直播间】,2min纵览大咖观点本期内容我们邀请到了来自蚂蚁集团的开发工程师陈传迎老师,给大家分享Alluxio在蚂蚁集团是如何支持大规模模型训练的。首先是关于引入Alluxio的背景:为什么要引入Alluxio?Alluxio到底解决了什么问题?带着这些问题,我们快速get陈老师分享的核心内容:第一部分:稳定性建设>>
2023年2月15日
其他

B站基于缓存优化 PRESTO 集群查询性能

做的改造主要从可用性、稳定性和性能提升三个角度出发。Presto在B站的实践:https://mp.weixin.qq.com/s/9_lSIFSw5o8sFC8foEtA7w
2023年2月12日
其他

腾讯 Alluxio:加速新一代大数据与 AI 变革

的状态,包括哪些成员。也可以[peer]加减或者设置成员的优先级。[snapshot]功能创建当前[peer]的[snapshot]。这个功能也是比较有用的,目前如果对集群做灰度上线,可能把
2023年1月19日
其他

2023年五大趋势预测 | 大数据分析、人工智能和云产业展望

随着我们迈入2023年大数据分析、人工智能和云产业将迎来蓬勃的创新和发展阶段以下是我们预测的将对行业格局产生重大影响的五大趋势:世界在剧变我们需要尽快寻找行业中的方向迅速重回轨道2023年,全球经济层面的不确定性将持续存在。在云上部署数据密集型负载的企业需重新评估其云战略,更加关注成本优化,根据现有或新项目的ROI(投资回报率)和TCO(总拥有成本)来进一步审视企业的云开销。
2023年1月18日
其他

张俊林:由ChatGPT反思大语言模型(LLM)的技术精要

基于Prompt的方法这方面工作非常多,如果归纳一下的话,大致可以分为三条技术路线。第一种思路是直接在问题上追加辅助推理Prompt。这种方法简单直接,但在众多领域都很有效。这个做法是由“Large
2023年1月10日
其他

下一个十年,我们需要一款什么样的分析型数据库?

等公开测试数据集上的优异表现,已经证明了其在执行层以及算子优化方面做到了业界领先。未来我们也会不断优化各个场景下的性能表现,回馈用户极速的数据分析体验,具体包括:更复杂SQL性能提升:2022
2023年1月9日
其他

​字节跳动埋点成本治理实践

导读:随着业务的发展,业务上报的埋点数据会越来越多,杂乱的埋点数据不仅会消耗计算和存储成本,造成巨大的成本浪费,也无法有效的应用于业务,给业务带去数据价值,因此埋点数据的治理就很有必要。今天分享的主题是在字节跳动应用的埋点成本治理实践,本次分享从如下几个方面来介绍:治理背景治理策略治理经验回顾规划与展望分享嘉宾|肖茜文
2023年1月8日
其他

如何在因果推断中更好地利用数据?

导读:本次分享题目为《如何在因果推断中更好地利用数据?》,主要介绍团队近期在因果上已发表论文的相关工作。本报告从两个方面来介绍我们如何利用更多的数据来做好因果推断,一个是利用历史对照数据来显式缓解混淆偏差,另一个是多源数据融合下的因果推断。全文目录:因果推断背景纠偏因果树
2023年1月7日
其他

深度学习中的拓扑美学:GNN基础与应用

Prediction)是指如何通过已知的网络节点以及网络结构等信息预测网络中尚未产生连边的两个节点之间产生链接的可能性。这种预测既包含了对未知链接的预测也包含了对未来链接(future
2022年12月28日
其他

金雅然:因果推断主要技术思想与方法总结

,这个领域是一个方法非常多样化、进展非常快的领域,但是对于应用者而言要求需要充分思考方法背后的假设和局限性,才能更加准确的评估实际中的各种政策,受篇幅限制这里我们只是做了非常简要的介绍。5.
2022年12月26日