网易杭州研究院

其他

2023 OADC:开放原子云社区正式启航,Curve、Kyuubi获奖

12月16-17日,2023开放原子开发者大会(OADC)在江苏省无锡市召开。大会首日,由网易数帆联合发起的“开放原子云社区”宣告成立,随后网易数帆资深云原生专家侯诗军分享了稳定性保障的前沿实践,Curve、Apache
2023年12月16日
其他

大模型实践 | 为慧眼智能可观测平台插上ChatInsight的翅膀

ChatInsight是网易杭州研究院(简称杭研)在慧眼智能可观测平台引入大模型开发的创新功能,支持通过自然语言交互实现高效数据共享与经验积累,以提高业务日常稳保工作效率。ChatInsight目前已在网易云音乐、新闻、智企、严选、有道等业务落地,并已作为网易数帆Cloud
2023年12月15日
其他

开源不辍,薪火相传——网易杭研首位 Apache Incubator PMC 诞生

问题得到很好的验证,社区健康和持久性也得到了很好的确认。”坚持社区驱动,杭研传递开源精神放弃控制权,捐赠给基金会,这是网易副总裁、网易杭州研究院执行院长、网易数帆总经理汪源在
2023年11月30日
其他

故障频发?看云原生如何成就体系化稳定性治理

Terrninating状态。研发人员已经根据经验排查了常见的一些原因,但仍然无法解决,初步推断可能是系统或者集群层面因素导致的。我们通过平台对异常日志与已知容器Bug的匹配发现:(1)
2023年11月28日
其他

网易杭研受邀参加AiDD,分享玉言NL2SQL领域大模型实践

领域大模型,即利用大规模领域数据和深度学习技术构建的适用于特定领域的高性能大模型。这类模型通过深入理解领域知识和数据特征,能够提供更准确的预测、改善决策和优化系统性能。基于领域大模型,开发者能够加快应用开发速度,更能显著提升该领域的业务能力。11月24-25日,AI+软件研发数字峰会(AiDD)在深圳举办,在由网易副总裁、网易杭州研究院执行院长、网易数帆总经理汪源担任出品人的“领域大模型”论坛上,来自浙江大学、网易数帆、WakeData和招商银行的技术专家们深入讨论了领域大模型的最新实践。其中,网易数帆资深算法工程师李家诚分享了玉言NL2SQL领域大模型的研发及其在数据分析产品有数ChatBI中的落地。李家诚表示,结合来自网易杭州研究院的“玉言NL2SQL领域大模型”,和网易数帆大数据团队的产品交互设计、工程化能力,ChatBI产品已经支持非专业用户通过自然语言与BI平台进行交互,实现数据查询和分析,开启了数据分析新范式。玉言NL2SQL领域大模型玉言NL2SQL领域大模型是网易杭州研究院知识增强领域大模型家族的核心实践之一。知识增强领域大模型方法论的提出,是为了解决通用大模型在企业落地中存在的行业理解有限、知识陈旧、使用成本高等挑战。在网易自研的玉言大模型基座之上,领域大模型专注垂直领域专业数据和知识,对专业理解更精准,知识增强技术则相当于给大模型外挂了个性化知识库,能够提升细分领域问题的解决率。玉言NL2SQL领域大模型的任务,是将自然语言问题(NL)转换为可在数据库中执行的结构化查询语言(SQL)。李家诚介绍:玉言NL2SQL领域大模型是使用中文互联网开源的表格和SQL代码数据集,以及网易集团内部积累的表格及SQL代码数据集,以提升自然语言生成SQL代码的准确性为训练目标,对玉言大模型基座进行继续预训练和指令微调训练得到的。继续预训练阶段的核心工作是数据清洗和数据标准化,在此阶段网易杭州研究院投入了200B
2023年11月24日
其他

又一领域大模型!网易杭研与浙江省人民医院携手共建

为促进大模型在企业真正落地,网易杭州研究院AI团队形成了知识增强领域大模型独门技术,并将其成功应用于为网易数帆ChatBI、EasyData、CodeWave、轻舟云原生等核心产品增强智能特性。现在,这一技术又在医疗领域被验证应用成功。在第九届浙江国际健康产业博览会上,网易杭州研究院与浙江省人民医院联合演示了一个“玉言医疗文献领域大模型”,借助网易玉言大模型基座和知识增强领域大模型技术,解决医疗人员在科研工作中的主要痛点。网易副总裁、网易杭州研究院执行院长、网易数帆总经理汪源表示:玉言医疗文献领域大模型基于网易AI技术积累和浙江省人民医院专业医疗知识、数据研发而成,具有懂专业、懂场景、更安全和更高效四大特色,能够在文献流程中有效提升医疗科研的效率,加速医疗智能化升级。大模型引领医疗AI新时代,辅助医学科研受关注公开资料显示,从海外到国内,从微软、谷歌等巨头到医联等垂类企业,目前进军医疗领域的大模型已超过了40个,包括药物挖掘、医院管理、辅助医疗科学研究、疾病风险预测、辅助诊疗、医学影像和虚拟助理等不同细分领域,每个赛道都有多家企业涉足。汪源表示,传统AI技术在医疗领域存在应用范围狭窄、学习能力不足、投入成本过高等缺陷,如早期的“专家系统”,需要对每种疾病甚至每个医生的观点进行构建,难以普及推广。相比之下,大模型“封装”了大规模数据预训练的知识,具备优秀的上下文学习和复杂推理等能力,能够在医疗领域实现更强大的通用性和准确性,其落地潜力为医疗AI发展带来了新的曙光。作为一家大型综合性三级甲等医院,浙江省人民医院正在从数字化建设向智能化迈进。浙江省人民医院科研部副主任叶潇医生表示:医院开展了多类癌种人工智能辅助决策系统的开发,其智慧医院“三位一体”建设已达国家优秀标准,引入医疗大模型加强医疗、科研、服务、管理效率成为了未来的工作目标。为此,浙江省人民医院选择了网易杭州研究院作为技术合作伙伴,推进医疗大模型应用,进一步提高发展质量。瞄准医疗科研痛点,研发玉言医疗文献领域大模型由于训练数据及训练方法等原因,大模型存在难以克制的“幻觉”,即一些看似有理实则错误的回答,这是该技术生产落地的核心障碍之一。尤其是在医疗这样非常专业、严肃、敏感的特殊行业,如何克服AI幻觉实现严苛的专业度和准确率极为考验研发团队的实力。为此,网易杭州研究院和浙江省人民医院结合院方科研项目稳定增长、亟需借助AI提效的需求,以医疗科研为突破点落地大模型,并成功研发了玉言医疗文献领域大模型。医疗文献场景对AI幻觉的容错性更高,落地风险更小,同时医院医疗科研痛点明显,是一个绝佳的突破点。汪源介绍,玉言医疗文献领域大模型以浙江省人民医院医学知识和海量医疗文献数据为基础,在网易自研的玉言大模型基座之上,根据领先的知识增强领域大模型方法论定制优化而成,为医疗科研应用提供支撑。领域大模型专注垂直领域专业数据和知识,对专业理解更精准,知识增强技术则相当于给大模型外挂个性化知识库,能够提升细分领域问题解决率。百万领域数据“喂养”,模型专业水平获认可为了实现玉言医疗文献领域大模型在细分领域“懂专业”的能力,以匹配科室需求,网易杭州研究院研发人员构造了超过100万条专业数据用于模型的监督微调,其中90%为浙江省人民医院优选的内分泌领域数据,包括疾病知识、药品咨询等知识图谱数据,和论文、指南、医学书籍等文献数据,以及摘要、翻译、纠错、润色等数据。这是通用大模型所难以企及的。而且在知识增强技术之下,随着医疗科研人员不断在使用中对模型结果进行打分、排序,模型将会越来越“懂专业”。“懂场景”方面,叶潇医生表示:玉言医疗文献领域大模型覆盖了文献筛选、文献阅读、科研写作等医疗科研文献多个应用场景需求,能够深度识别用户意图,深层次地理解和处理海量医学科研文献,加速医学前沿信息获取、权威知识触达,简化信息汲取流程,辅助科研成果更好更快见刊。此外,模型私有化部署的设计,以及网易专业的定制优化能力,为玉言医疗文献领域大模型带来了敏感医疗数据“更安全”、推理“更高效”、资源消耗更少的特点。这些特点,对于模型在医院的部署应用也极为重要。结合自身强大的产品策划和软件工程能力,网易杭州研究院已经基于玉言医疗文献领域大模型开发了一款医疗文献管理的产品原型,包含文献检索、文献问答、文献综述、文献翻译和辅助写作等实用功能,并提供给浙江省人民医院试用,收集反馈优化。汪源通过一段视频简要演示了文献翻译和文献综述功能的效果,这两项能力为医疗科研带来了前所未有的体验,获得了浙江省人民医院的初步认可。汪源认为,这符合“技术无价、产品为王”的论断,验证了玉言医疗文献领域大模型的业务价值。【文献翻译和文献综述功能演示】展望未来,汪源表示,网易杭州研究院将与浙江省人民医院一道,以玉言医疗文献领域大模型为起点,在模型方面持续加强前沿技术研发强化“内功”,在场景方面把科研领域做精做深后逐步覆盖更多细分领域需求,不断提升医疗大模型的落地能力,并推广行业应用,促进我国医疗行业智能化升级。了解更多首次揭秘:网易杭研知识增强领域大模型方法论揭秘杭研创新:价值共创,做有挑战的技术生态
2023年11月20日
其他

揭秘杭研创新:价值共创,做有挑战的技术生态 | 2023网易数字+大会

在充满快速变化和竞争激烈的时代下,技术创新已成为推动社会进步和经济发展的重要力量。11月2日,在2023网易数字+大会上,网易数帆宣布从品牌、产品到生态战略全面升级。期间,以“技以载道,着眼未来”为主题的“创新技术论坛”成功举行,论坛齐聚科研机构、科技企业和创业领域的顶尖专家和领导者,深入探讨数智时代下技术创新的内涵和价值。其中,网易数帆协同网易杭州研究院,全面解读了CCDA(云原生、CodeWave、大数据和AI)产品体系背后的创新土壤、孵化逻辑、研发故事和落地成果,以及投身开源社区建设的探索经验,并针对在杭研技术生态中做出突出贡献的企业和个人颁发了数智创新应用、共创卓越和技术贡献者等奖项,表明了引领创新、价值共创的态度和决心。网易杭研创新法则:做有价值、有挑战的事情网易杭州研究院技术委员会Core成员陈谔作开场致辞,重点分享了对于技术创新的见解。基于网易杭州研究院实践经验沉淀,陈谔表示,技术创新应该是基于对市场,对业务的洞察所做出的创新,有做挑战性的创新。如云原生领域的高性能、金融级高可用技术,低代码领域的NASL编程语言,这些创新在业界的独特竞争力就是明证。同时,技术创新还应投入开源开放的体系建设,积极拥抱开源社区,形成了真正有价值的沉淀,并把自己的产品开源贡献给社区,让技术的生命力更加长远。网易杭州研究院技术委员会Core成员陈谔作为网易集团重点投入且唯一的研究院机构,网易杭州研究院被认定为“国家企业技术中心”,多年来始终坚持创新业务孵化、基础技术平台研发和前沿技术研究。会上,网易杭州研究院基础平台中心总监张晓龙介绍到,经过多年沉淀和探索,网易杭州研究院除了网易云音乐、严选等C端产品,还孵化出了网易数帆B端业务,包括云原生、低代码、大数据、人工智能四大产品线。其中,轻舟云原生平台、CodeWave智能开发平台、EasyData数据开发治理平台等创新产品,都是随着网易电商业务爆发式增长、大量经营管理系统开发需求、烟囱式数据架构等业务挑战孵化出来的,这些都成为了网易数帆以坚持探索、以创新推动技术突破的关键支撑。除此之外,系统稳定性提升、IT降本增效也成为网易杭州研究院当前创新工作的主题,包括了运维保障、基础设施、数据湖/Lakehouse、大模型与AIGC等“有价值、有挑战的事情”,既支撑网易业务创新,也促进网易数帆产品发展。网易杭州研究院基础平台中心总监张晓龙云原生、大数据、AI创新加速;网易数帆打造技术创新强引擎!针对网易数帆在云原生、大数据和人工智能领域的探索,网易数帆云原生资深架师裴斐、网易数帆云原生解决方案专家侯诗军、网易数帆大数据解决方案专家费翔、网易数帆人工智能产品线总经理胡光龙受邀出席,详细解读了网易数帆在三大技术领域的技术创新思考和实践。其中,裴斐带来以《铸云之基,云原生架构变革实践之路》的主题演讲,分享了网易数帆在云原生架构方面的实践经验和探索。他谈到,企业对数字化能力的要求越来越迫切,云原生技术得以快速发展,成为当下热门的技术趋势之一。经过不断进化升级,云原生已经从早先的技术概念走向普及化应用,能力外溢到企业数字化转型之中,成为企业降本增效、业务创新与增长的“新引擎”。他还特别提到了API网关的融合问题,为相关领域研究的企业和从业人员提供了有益参考。网易数帆云原生资深架师裴斐侯诗军分享道,根据权威机构的调研和预测,预计在2025年会有90%以上的应用基于云上运行。未来,将有越来越多的企业利用云原生技术进行数字化转型以寻求更好的发展,其中云原生的稳定性建设对企业至关重要。他认为,第一稳定性管控是判断能否真正掌握云原生技术一项重要的衡量指标;第二要改变传统的监控思维,要思考从事前、事中、事后的全链条的各个环节做好稳定性管控的工作;第三做好稳定性管控,才能真正让云原生计划从可用到敢用到好用,从而护航为企业创新发展。网易数帆云原生解决方案专家侯诗军随着数据基础制度的逐一落实,我国迎来了数据要素政策和环境的黄金发展期,数据作为新的生产要素,被政府和企业赋予重要使命。费翔表示,要实现数据的价值应该从数据标准规范、数据质量、数据深度挖掘和分析、数据的服务以及数据安全五个方面出发。同时,第一数据价值也数据要高可复用;第二数据链路应既能够实现自底向上,也能够自顶向上;第三以数据驱动应用的创新,最终实现整个企业数字化转型大的战略。网易数帆大数据解决方案专家费翔作为网易杭州研究院和网易数帆的AI负责人,胡光龙则分享了网易杭州研究院沉淀的知识增强领域大模型方法论在网易内部的实践,及其在网易数帆全线产品的应用进展。领域大模型即专注于本领域的数据和知识的大模型,胡光龙表示,垂直领域应用是大模型的主战场,通用大模型虽然具备涌现的能力,但对行业理解存在局限性,因而使用领域大模型更加有效;而在具体客户场景应用时,利用知识增强技术可以进一步融入企业客户个性化知识,从而提升问题解决率。未来一年,网易数帆将结合大模型和传统AI能力,进一步提升ChatBI、CodeWave、EasyData和Cloud
2023年11月15日
其他

首次揭秘:网易杭研知识增强领域大模型方法论

网易数字+大会上,网易杭州研究院知识增强领域大模型方法论和应用成果首次系统性曝光。什么是知识增强领域大模型?知识增强领域大模型有哪些独特的优势、价值?让我们一探究竟!
2023年11月2日
其他

Arctic 实时维表 Join 原理解析

社区感兴趣,也欢迎通过上述方式联系我们深入交流。欢迎更多的开发者关注、使用和参与,欢迎贡献代码,一起打造行业领先的湖仓管理系统。了解更多Arctic助力传媒实现低成本的大数据准实时计算Arctic
2022年11月18日
其他

Arctic助力传媒实现低成本的大数据准实时计算

网易传媒大数据实际业务中,存在着大量的准实时计算需求场景,业务方对于数据的实效性要求一般是分钟级;这种场景下,用传统的离线数仓方案不能满足用户在实效性方面的要求,而使用全链路的实时计算方案又会带来较高的资源占用。基于对开源数据湖方案的调研,我们注意到了网易数帆开源的基于
2022年11月9日
其他

Arctic 基于 Hive 的流批一体实践

架构:这套架构最明显的问题就是多套系统带来的运维成本和重复开发带来的低效率,其次就是两套系统同时建模带来的语义二义性问题,并且真实生产场景中,还会出现实时和离线视图合并的需求,或者引入
2022年10月25日
其他

Service Mesh Summit | 无侵入增强 Istio,网易数帆践行这三条原则

层面的一些语义。我们对它做增强的思路就是这样的。下面是轻舟服务网格做的一个比较浅的封装,但是在我们内部用得很多,所以我们认为它解决了一些实际问题。这个字段描述我们这个插件要去作用于网关,作用于某一个
2022年10月12日
自由知乎 自由微博
其他

【直播预告】Apache Kyuubi新特性解读及互联网/金融行业实践

报表等多种大数据场景的应用,为企业级数据湖探索提供标准化的接口,赋予用户调动整个数据湖生态的数据的能力,使得用户能够像处理普通数据一样处理大数据。Kyuubi
2022年9月30日
其他

万字长文详解开源流式湖仓服务Arctic

本文根据作者于Arctic开源发布会演讲内容整理(略有删减),系统解读Arctic项目研发初衷、生态定位、核心特性、性能表现及未来规划。首先感谢大家参与我们Arctic开源发布会。我是马进,网易数帆实时计算和湖仓一体团队负责人。我们在2020年开始关注数据湖新的技术,并用它来构建流批一体、湖仓一体的架构。最早我们使用Flink+Iceberg,但是实践过程中发现这个架构距离生产场景还有很大的gap,所以有了Arctic项目(github.com/NetEase/arctic)。数据湖Table
2022年8月17日
其他

从Delta 2.0开始聊聊我们需要怎样的数据湖

为管理员和开发者提供了持续优化的度量和管理工具,以帮助用户实现时效性,存储和计算成本的测量,标定和规划。进一步说,在以数据湖构建的离线场景中,成本和性能呈非常线性的关系,当性能或容量不足时,SRE
2022年8月11日
其他

Curve 替换 Ceph 在网易云音乐的实践

1网易云音乐背景网易云音乐是中国领先的在线音乐平台之一,为音乐爱好者提供互动的内容社区。网易云音乐打造了一个大型、富有活力且坚固、快速成长的业态,为用户提供以社区为中心的在线音乐服务及社交娱乐服务。其标志性重点产品包括“网易云音乐”及附属的社交娱乐产品,如“LOOK
2022年6月29日
其他

云原生行业应用崛起,从“可用”到“好用”有多远?

云原生与数字化转型正在相互促进。根据中国信通院发布的《云计算白皮书》,2020年我国云原生在金融、制造、服务业等行业的应用快速崛起,行业数字化转型的带动效应初步显现。另一方面,采用云原生架构的生产集群规模显著提升,但规模化应用带来的安全、性能和可靠性等问题仍需考虑。如何破除这些用户侧的顾虑,让云原生成为行业IT架构的重要组成部分真正发挥价值?网易数帆轻舟云原生平台负责人冯常健表示,实现云原生技术从“可用”到“好用”的转变,有四个关键点:高可用架构:通过应用多活架构,将金融业务的管理层、流量层、应用层、数据层等高可用方案互相结合与联动,保证企业端到端业务的连续性。稳定性治理:云原生稳定性治理“运维经验”可交付,建立“稳定性改进循环”,
2022年6月23日
其他

CNCF Sandbox 项目达成!Curve 走近统一云原生开源存储梦想

兼容的对象存储作为数据存储引擎,为公有云用户提供高性价比的共享文件存储。GitHub:https://github.com/opencurve/curve微信群:请搜索添加群助手微信号
2022年6月17日
其他

IstioCon 回顾 | 网易数帆的 Istio 推送性能优化经验

Tips,不一定每个场景大家都会遇得到,但是会有一些思路可以借鉴。比方说我们有一些场景是连接不均衡,原生的是有一个用于自我保护的限流,如果有大量的连接或者请求发往单个节点,单个
2022年5月23日
其他

Curve 基于 Raft 的写时延优化

发送写op(步骤1),写op到达Leader后(如果没有Leader,先会进行Leader选举,写Op总是先发送给Leader),Leader首先会接收写Op,生成WAL(write
2022年4月27日
其他

Slime 2022 展望:把 Istio 的复杂性塞入智能的黑盒

测试框架,添加自定义测试用例,可直观对比不同版本的性能变化确定性2022.H2Tracetio服务网格的全链路自动化运维,提高排障效率,给出智能化判断确定性2022.H2I9s类似
2022年4月22日
其他

IstioCon 2022,网易数帆六年优化经验即将揭秘

社区建设和项目迭代,并基于此在2019年完成了网易严选第二代服务网格平台的大升级,目前该项技术也已经成功应用在银行、证券、能源等多行业头部客户数字化基础设施中。演讲主题:Istio
2022年4月11日
其他

服务网格数据面性能深度调优

导读:服务网格作为云原生的重要技术,提升了微服务的流控、熔断、升级等服务治理能力,但同时sidecar的引入也导致了时延的增加。网易数帆通过对时延引入的具体分析,尝试利用eBPF和用户态协议栈技术,来对时延进行优化,并最大限度地考虑兼容性,做到对容器网络、sidecar应用的无侵入加速。时延分析服务网格中sidecar的引入在整个网络路径上增加了两个网络处理单元,从而不可避免地会引入时延。针对sidecar本身逻辑的优化来优化时延是社区的一个方向,比如envoy社区针对mixer的优化。另外一个方向是针对链路底层做优化。如果打开整个链路来看,sidecar会多引入Service到sidecar的链路以及sidecar到sidecar的链路,客户端和服务端总共多经过了四次内核态协议栈。我们通过了火焰图分析了sidecar应用envoy的CPU占用,发现内核态协议栈的CPU占比近50%,所以针对内核态协议栈的优化效果理论上应该非常可观。另外也可以针对容器网络做优化,比如使用SRIOV容器网络方案,不过会涉及对已有的容器网络方案的改造,有侵入性。eBPF
2022年2月23日
其他

网易数帆开源iSCSI服务器tgt独门优化,彻底解决性能问题

使用多个线程做epoll现代CPU的性能依然遵守摩尔定律,但是摩尔定律的实现路径发生了变化,单CPU时钟频率不再提高,而是代之以更多的物理CPU核。为此,我们必须要实现多个epoll
2022年2月17日
其他

开源 | KubeCube 用户管理与身份认证

通常的认证流程为:用户访问客户端,后者将前者导向认证服务器。用户选择是否给予客户端授权。假设用户给予授权,认证服务器将用户导向客户端事先指定的"重定向URI"(redirection
2021年12月17日
其他

开源 | CurveFS预览版重磅首发,Curve加速迈向云原生软件定义存储

今天,我们很高兴地发布Curve项目的文件系统,以及全新的部署工具。这也是CurveFS的第一个beta版本,预示着在Curve社区同仁的共同努力之下,Curve距离更好用的云原生软件定义存储又前进了一步。版本地址:https://github.com/opencurve/curve/releases/tag/v0.1.0-beta2021年上半年Curve团队立项决定做分布式共享文件系统,我们的Roadmap列出了一些打算实现的关键特性,其中包括:提供基于FUSE的用户态的文件读写接口,并且兼容POSIX协议支持数据存储到对象存储系统支持云原生部署、运维、使用支持多文件系统CurveFS的首发版本当前已实现上述功能,更多的功能仍在开发当中,欢迎试用体验。为什么要做CurveFS支持多领域数字业务发展,将Curve开源的网易数帆存储团队,在实践中先一步感受到了新一代分布式文件系统的需求,并得到了Curve社区成员的共鸣。从跟网易内部产品以及数帆商业化客户沟通,用户使用的分布式文件系统主要是CephFS(配合Kubernetes做PV使用),在近几年的使用过程中,用户在如下几个场景遇到了难以彻底解决的问题:场景1:期望兼顾性能和容量的机器学习场景某业务机器学习场景下,在使用CephFS过程中,训练耗时期望尽量短,训练结果期望长期保存,但访问频次很低,因此希望可以主动/被动沉淀到容量型存储池,需要用到的时候可以主动/被动触发迁移到性能型存储池。这里的主动是指业务可以自行切换某个目录的存储类型(如容量型、性能型),被动是指通过配置一定的生命周期规则(或缓存管理策略)来触发存储池切换。CurveFS在这个场景下,可以通过多级缓存(CurveFS
2021年12月15日
其他

开源 | KubeDiag 框架技术解析

Pod。查看当前诊断的阶段。通过参数扩展诊断的状态。诊断成功时查看诊断的结果以及排查路径。诊断失败时查看失败的原因以及排查路径。查看诊断过程中某个阶段的详细信息。Diagnosis
2021年11月10日
其他

开源 | 深入解读 KubeCube 多集群管理

扩展的访问控制。为提升用户管理多个Kubernetes集群的效率,KubeCube提供了在线运维工具,可以通过KubeCube这一统一入口,快速管理多集群资源:CloudShell
2021年10月28日
其他

网易数帆基于 Envoy 的云原生网关实践

网易数帆实践与开源最后一部分是网易数帆的具体实践,还有开源相关的工作。数帆微服务的整体架构如图所示。这个图,我几次分享都用到它。简单,清晰明了,而且没有复杂的技术细节。在最下层,Envoy
2021年10月20日
其他

开源 | KubeCube 多级租户模型

的设计中,租户和项目管理员都没有直接创建命名空间的权限,他们通过拥有创建SubNamespace的权限来间接获得创建命名空间权利。SubNamespace是命名空间级别的资源,通过
2021年9月23日
其他

云原生API网关 - 开源项目Hango网关设计与实践

解读开源Hango网关的云原生设计与实践,本文先从云原生溯源,解读云原生API网关选型特点;再进一步解读网易数帆开源Hango云原生API网关设计及大规模落地实践。云原生溯源什么是云原生CNCF(云原生计算基金会)对云原生的定义是:云原生是一种架构模式,有利于各组织在公有云、私有云和混合云等动态环境中,构建和运行可弹性扩展的应用。代表技术包括,容器、微服务、不可变基础设施和声明式API。从云原生的定义可以看出,云原生具备快速集成,拥有良好的扩展性及高可用性。得益于Kubernetes的发展,云原生技术蓬勃发展,已然迈入新时代。API网关的意义随着容器技术以及微服务理念的发展,更多的产品组织着重于暴露开放API,用于客户端进行交互。API网关充当API代理的功能,网关接收请求,将请求进行统一路由转发至后端服务。网关作为抽象层,为整个微服务系统或集群提供统一接入层。除了代理功能外,API网关为微服务集群提供统一的安全、响应转换、熔断、降级和监控等多维度功能,确保流量安全可靠。随着云原生理念引领微服务进行演进,应用迭代频率以及交付速度会加快,API网关的出现可以使得业务开发更加专注于自身业务逻辑的设计,提升研发敏捷性。在云原生的架构下,API网关也在向云原生演进,Hango网关便是云原生设计下催生的优秀网关产品。云原生API网关特点进入云原生时代,行业用户除了关注传统API网关提供的请求代理,流量治理等常规功能外,更多的开始关注云原生兼容性,支撑场景的多样以及更优异的性能。相较于传统API网关,在云原生模式下笔者认为API网关应该具备的一些思考:服务发现方式:与传统网关服务发现需要手动指定upstream,云原生网关在服务发现上需要动态感知业务变化。更高的性能追求:随着Kubernetes以及容器将云原生带入新时代以及微服务理念的发展,API网关的卓越性能可以减少整个链路的RT。云原生架构兼容/整合:网关的部署架构是否能够和云原生架构进行兼容,能否和容器以及服务网格进行无缝对接。动态配置能力:传统的反向代理无法实现动态配置加载能力,云原生模式下的代理配置更新变化较频繁,动态配置下发能力显得尤为关键。部署形态及架构:网关部署架构能否满足弹性扩展,是否支持从业务混部到独立部署的平滑迁移。监控/链路追踪:云原生架构中,良好的监控和链路追踪能力可以便于运维人员进行服务观测以及问题定位。Hango
2021年9月9日
其他

KubeCube 开源:魔方六面,降阶 Kubernetes 落地应用

容器技术发展至今,各行各业对其所带来的好处,如多环境交付一致性、弹性伸缩、故障自愈等,已经达成普遍共识。这些好处的实现,依赖于当前容器编排领域的事实标准——Kubernetes平台。然而,Kubernetes的复杂性、学习曲线陡峭也是不争的事实,这对容器技术落地应用造成很大影响。根据IDC最新发布的软件定义计算软件市场半年跟踪报告显示,容器软件市场在未来五年仍然会保持超过40%的复合增长率,但
2021年8月25日
其他

Hango 开源解读:云原生网关实践,为何要选择 Envoy ?

Envoy:https://dropbox.tech/infrastructure/how-we-migrated-dropbox-from-nginx-to-envoy阿里巴巴
2021年8月18日
其他

全票通过,网易开源项目Kyuubi进入Apache孵化器

北京时间2021年6月21日,全球顶级开源组织Apache基金会宣布,网易数帆开源的大数据项目Kyuubi以全票通过的表现,正式进入Apache基金会孵化器。根据投票结果,Kyuubi获得了13个约束性投票(binding
2021年6月25日
其他

提效7倍,Apache Spark 自适应查询优化在网易的深度实践及改进

的用户,网易在享受社区技术福利的同时也在反哺社区。这也是网易对技术的思考和理念:因为开放,我们拥抱开源,深入社区因为热爱,我们快速接受新的理论,实践新的技术作者简介:尤夕多,目前就职于网易数帆
2021年6月2日
其他

Kyuubi 与 Spark Thrift Server 的全面对比分析

Server以及HiveServer2是完全一致的。因此,从用户的角度来讲,总体使用方式是不变的。与HiveServer2相比,前两者带给用户最大的不同应该就是性能上的飞跃。用户可以选择市面上既有的
2021年3月19日
其他

Kyuubi: 网易数帆开源的企业级数据湖探索平台(架构篇)

SQL的威力。它们可以自行管理自己的生命周期,自行缓存和回收,并且不受Kyuubi服务器上故障转移的影响。接下来,我们来分享一下Kyuubi的一些关键设计理念。统一接口Kyuubi实现了Hive
2021年3月5日
其他

拥抱开源,我们是认真的-网易易数2020年Apache Spark贡献总结

开源软件正在吞噬世界,在未来,没有一家企业能够脱离它们,也不可能存在一家企业能够脱离开源的开发协作方式,也没有一家企业会拒绝这种本质上是双赢的局面。本文来自网易数帆旗下网易易数开发团队,记录其2020年在Apache
2020年12月25日
其他

Curve ChunkServer CPU优化实践

导读:Curve是网易数帆开源的新一代分布式存储系统,优化CPU性能,释放SSD的I/O能力,是Curve性能优化的一个重要方向。本文围绕Curve的CPU性能优化进行了一些探索和实践。
2020年12月14日
其他

网易轻舟服务网格数据面性能优化实践

导读:本文分析了服务网格数据面的性能瓶颈,并引出基于用户态协议栈的加速方案。详细介绍了VPP+VCL的用户态协议栈开源社区方案,其针对服务网格sidecar加速的优势和不足,以及网易数帆做了哪些增强,从而实现对服务网格sidecar的无侵入加速。最后介绍VPP+VCL用户态方案在加速网易轻舟云原生平台服务网格产品的落地实践,并给出实际的性能测试结果。引子服务网格通过引入sidecar提升了监控、流控、熔断等服务治理能力且对业务无侵入,但同时sidecar的引入在整个网络路径上也相当于增加了两个网络处理单元,从而不可避免的会引入时延。从业务方的角度来看,引入sidecar后的时延肯定是越短越好,特别是业务方微服务化后对时延敏感的业务,如内部各模块之间的服务化调用。所以,本文中的性能如果没有特别说明,都是指时延指标。时延分析如果打开整个端到端的通信链路可以看出,sidecar引入后整个应用之间的通信链路其实是非常长的。应用发送的请求被iptables劫持后,经过内核协议栈发送给sidecar,sidecar经过处理后再通过内核协议栈发送出去,这里一般要先经过容器网络,虚拟VPC网络,再经过物理网络,之后才被接收端的sidecar收到,sidecar处理后再通过内核协议栈发送给最终的应用,整个过程要经过6次内核协议栈,而响应报文也要反向重复这一过程。但是如果去掉sidecar呢?可以看到只需要经过两次内核协议栈就可以了,相当于sidecar引入后多增加了4次内核协议栈的调用,另外还多引入了几次iptables报文处理。总体来看,整个链路包括物理网络、虚拟网络、Guest主机网络几个部分。其中,物理网络链路(包含在图中的⑦部分)不可控,这里不做讨论。而虚拟网络链路又分为虚拟VPC网络和容器网络。下面就来逐个分析下各个阶段可能的时延优化措施。虚拟VPC网络先看虚拟VPC网络(包含在图中的⑥部分)。一般来说,虚拟化会带来约10%的时延开销,那么这部分开销可以省掉吗?答案是肯定的,我们可以使用裸机容器的方案,略去中间的虚拟化层。容器网络再看容器网络(包含在图中的⑤部分)。这部分依赖于具体的容器网络方案,比如你网桥用的是Linux
2020年12月9日
其他

Raft算法在分布式存储系统Curve中的实践

作为网易数帆开源的高性能、高可用、高可靠的新一代分布式存储系统,Curve对于多副本数据同步、负载均衡、容灾恢复方面都有较高的要求。网易数帆存储团队选用Raft算法作为Curve底层一致性协议,并基于Raft的特性,实现了异常情况下的数据迁移和自动恢复。本文首先简要介绍一下Raft算法的一些基本概念和术语,再详细介绍其在Curve中的实践。Raft一致性算法介绍Raft算法中,有Leader、Follower、Candidate三种角色,它们之间的转换关系如下图:
2020年11月24日
其他

Curve技术解析之MDS元数据管理

curve简介Curve是网易数帆于今年7月份开源的一个高性能、高可用、高可靠的分布式存储系统,主打高性能、低延迟。Curve设计可以作为多种存储场景的底层存储:例如块存储,对象存储,云原生数据库,EC等。当前Curve已实现高性能块存储,并且基于这⼀场景对接了OpenStack
2020年11月19日
其他

基于Ceph Rados的网易数帆对象存储EC纠删码实践

一、背景介绍作为网易集团的基础软件团队,网易数帆在存储层面研发和维护了面向高性能需求的Curve开源存储、面向对象存储场景的NOS以及面向大数据场景的HDFS等多套系统,其中NOS(NetEase
2020年11月12日
其他

网易数帆存储负责人亲述:我眼中的Curve与Ceph

关于作者我是王盼,网易数帆存储团队负责人,资深系统开发工程师,具有10年云计算行业从业经验,做过几年Libvirt、OpenStack开发,也做过一年多Ceph(主要是H版本)的维护调优,对计算虚拟化、云计算平台、分布式存储系统等均有一定的开发和运维经验,个人技术博客:http://aspirer.wang/Curve是我们团队寄予厚望的开源存储项目,写这篇科普文章,旨在让对分布式存储系统(Ceph、Curve等)感兴趣的运维、测试、开发人员,或者对底层存储系统感兴趣的云计算平台开发人员,更加了解我们的项目。如欲对文中内容深入研讨,可添加微信号opencurve加入Curve用户群沟通交流。也欢迎点击阅读原文,关注每周五晚19:00点的Curve技术直播。Curve新版本介绍9月下旬我们发布了curve的最新版本v1.1,这个版本重点是性能优化,不论是单client还是10
2020年11月5日
其他

从故障中学习:稳定性设计和管理实践探索(下)

云计算基础设施的快速发展使得分布式微服务架构成为可能,系统架构复杂度随之激增,运维难度也越来越大,稳定性面临前所未有的挑战。割裂式的组件保障再也没法满足业务快速增长的需求,保障团队逐渐从后台走向前台,同时结合实践经验开始反哺稳定性设计模式、工具和管理体系建设,并且开始转变为“面向自恢复”的思路,系统稳定性才得以大幅度提升。本文结合理论与实践对稳定性建设做了一些总结,供各位阅读思考。本文为下篇,上篇见《从故障中学习:稳定性设计和管理实践探索(上)》。弹性工程-探索未知的未知什么是弹性工程?弹性工程既是跨学科的研究领域,也是多个来自如航空、医学、电力、航空运维和关键基础设施等领域的研究者社区。近年来,软件工程与运维领域也已介入这个已有20年历史的领域和社区,旨在创造和维持可以有效发挥弹性条件。弹性是持续的条件适应能力,或对不可预见情况的持续适应能力。它通过提前行动来应对未知的条件变化,保持对未知条件变化下的自适应能力。从未发生过的事情其实一直在发生,因此即使完全遵循了上述稳定性设计模式(应用的设计模式并不是越多越好,合适的场合用合适的策略即可),也无法幸免于未知条件下造成的事故。如果说上面的设计模式是应对灰犀牛的好办法,那么针对黑天鹅我们必须通过不断创造变化的组合条件并在此之下验证系统的稳定性表现。很多人只有等出现重大事故时才会去调查事故原因,认为降级等微小的事件不值得深入了解,而实际上正是这些微小的事件蕴藏着更多关于故障的信息甚至产生新的知识,也很有可能因为一连串微小事件的组合,爆发出一场新的事故。为什么有些专家并不清楚是什么使得自己变成专家,而且通常他们也不知道自己知道什么,也是这个道理,专家知道的微小细节太多了,以致于他们认为这只是常识。弹性工程与运维我们最终为实现稳定性而设计,而系统的设计是使之具备弹性,最终达到稳定性目标。稳定性和弹性在本质上我认为是在不同视角下阐述的同一个东西,稳定性描述的是宏观状态,弹性则侧重于微观适应能力以达成稳态。系统持续运维过程当中通常包含如下活动:对系统中的组件进行监控利用机会表现自己(非贬义)预测事故发生概率事故和故障响应预估未来运行情况学习系统特性▲弹性系统模型(图片来自网络,侵删)Rasmussen的动态安全模型阐释了系统如何在安全边界内正常运行而同时又处于不断向事故边界漂移的威胁之中。这张图很好地阐释了系统的弹性(Resilience),我们总结弹性为如下四点:监控Monitoring响应Reacting/Responding预测/适应Anticipating/Adapting学习Learning这四点与我们日常运维过程保持了高度的一致性,弹性不仅仅描述了一种系统状态在正常和异常边界区域的变迁,同时描述了运维实践的一系列活动,这都是我们这里论述弹性的范畴。最终我们为稳定性设计了多种策略,不仅限于系统,还在于人和组织,狭义稳定性只论述系统,广义稳定性更涉及到系统和人的一系列行为,因为人就是业务系统的一部分:我们给系统定义清晰的边界、层级和范式系统有自保措施系统资源有足够冗余系统有安全防护措施最佳实践和验证有确保机制系统组件有最终责任制我们这么描述实现弹性:经受得住瞬时冲击快速平滑从失败中恢复优先处理高优先级任务识别并应对异常情况适应外部环境的变化我们通过自己储备的知识提前预测、模拟故障,以此不断总结最佳实践和稳定性设计模式去设计系统稳定性,防患于未然,参考Netflix的混沌工程(Chaos
2019年12月2日
其他

从故障中学习:稳定性设计和管理实践探索(上)

云计算基础设施的快速发展使得分布式微服务架构成为可能,系统架构复杂度随之激增,运维难度也越来越大,稳定性面临前所未有的挑战。割裂式的组件保障再也没法满足业务快速增长的需求,保障团队逐渐从后台走向前台,同时结合实践经验开始反哺稳定性设计模式、工具和管理体系建设,并且开始转变为“面向自恢复”的思路,系统稳定性才得以大幅度提升。本文结合理论与实践对稳定性建设做了一些总结,供各位阅读思考,本文为上篇。认识故障Richard
2019年11月29日
其他

程序员节,网易杭研四天王揭秘如何炼成“码神”

熟悉网易发展逻辑的人知道,这是一家不追逐风口、注重发展质量的公司,上游技术、全球化和信息消费升级,被掌舵者视为未来数字经济值得关注的三个领域,公司在教育、文娱、物质/信息消费升级及全球化发展等方面早有布局,而技术创新,一直是公司发展的基础。2019年,中台在数字经济领域受到了空前的关注,作为集团的“创新中台”,网易杭州研究院趁势推出了支持在线业务中台和数据中台建设的技术产品,网易轻舟微服务平台和网易猛犸全链路数据中台。这些产品已经成功应用于网易内部的严选、音乐、教育、传媒等业务,以及德邦快递、工商银行、名创优品、温氏股份等第三方企业。杭研一线技术研发人员已经为中台支撑技术奋战多年,本文邀请四位已经封神的研发人员现身说法,揭秘他们如何支撑中台建设,拥抱数字未来,同时完成个人的封神大业。>>>冯常健:相信云原生,降维打击一切难题网易杭研云计算技术部架构师
2019年10月24日