李昊:大数据技术的发展趋势与实践
2023年12月21日,由中国信息通信研究院(以下简称:中国信通院)、中国通信标准化协会主办,中国通信标准化协会大数据技术标准推进委员会承办的2023年数据资产管理大会-数据基础设施论坛在北京召开。星环科技解决方案高级总监李昊分享了《大数据技术发展趋势与实践》,介绍了大数据技术的四大趋势,包含湖仓集一体化、实时数据和历史数据融合分析、大模型+大数据、大数据+大模型。
星环科技湖仓集一体平台,将海量异构数据汇聚到同一个平台,支撑上层的各种数据应用。在数据接入方面,具备数据接入时效性高和接入数据Schema自适应等特征。在数据存储层,能够将多类型的结构化、半结构化和非结构化的数据进行统一存储管理,支持数据溯源和时间旅行。多模型数据湖仓统一存储,在降低技术栈复杂度,减少数据加工链路,降低数据冗余等方面也有显著优势。在数据业务方面,支持实时在线查询/分析、多模数据融合分析、大模型分析等场景。此外,在资源管理层,星环科技湖仓集一体平台支持混合部署,首个通过了信通院云原生湖仓一体大规模一数多芯专项评测,在10000节点X86、ARM混合部署集群下,湖仓数据集成、计算、存储、数据治理以及其他湖仓能力等五大能力域均满足云原生湖仓一体测试要求。
星环科技新一代的数据融合分析架构,能够将历史数据和实时数据进行融合分析,支持多数据源之间灵活Join,能一体化支撑在线数据服务、离线数据计算和实时数据计算等场景,避免了Lambda架构、Kappa架构在实时数据与批数据分离、窗口大小有限、多数据源Window Table时间不可控等局限性,给用户带来了极大的便利性,架构的复杂性也大大降低,实际应用落地效果理想。
“大模型+大数据”是大数据技术的另一个演进趋势。检索增强技术可以有效地解决大模型的局限性,传统方式通过向量数据库来赋能大模型,未来文档数据库、时序数据库、图数据库等都能够作为大模型的外挂存储,使大模型的准确度比使用单一模型更加精确,因此多模数据库成为大模型时代的刚需。星环科技提供多模型数据的统一处理能力,一个平台支持关系型、图、时序、时空、向量等11种数据模型,并实现了接口层、计算层、存储管理层和资源管理层的统一,具有复杂度低、开发成本低、运维成本低、数据处理效率高等优点。
最后一个趋势是“大数据+大模型”,是指用大模型来赋能大数据。星环科技大数据分析大模型-求索SoLar,能帮助业务分析师用自然语言去做数据分析,大幅降低学习和使用成本。在大模型的加持下,大数据能更快地赋能实际的业务。星环大数据分析大模型-求索SoLar已经有一些成功落地的案例。在金融大模型方面,星环科技推出了无涯Infinity,这是一款面向金融智能投研领域、超大规模参数的生成式大语言模型。基于海量高质量金融语料、事件类型和事件实例的二次预训练,无涯可实现基本面、技术面、消息面在内的金融通识领域的准确理解能力,回答例如政策和研报分析、新闻解读、舆情分析、个股推断等问题。此外,星环无涯利用检索增强及向量化嵌入模型,使得召回结果更加准确,并支持文档自动解析及标记引文来源功能。
《数据智能平台技术要求》标准首次专家研讨会成功召开
关于我们
中国通信标准化协会大数据技术标准推进委员会(CCSA TC601,简称:数标委/BDC),旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。欢迎加入我们的行列!
入会咨询:白老师 13520285502
baizhimeng@caict.ac.cn