eBay技术荟

其他

基于eBPF监控和排查云原生环境中的磁盘IO性能问题

的过程能够代表绝大部分的IO过程。于是我们在block:block_rq_complete之外,加入了block:block_bio_queue和block:block_rq_insert
2022年5月6日
其他

eBay大数据安全合规系列 - EB级集群升级挑战和实践

目前我们采用的副本多rack部署模式能够比较好地容忍单rack机器完全处于停服状态的情况。基于上述两点理由,我们想要探索尝试一种新的不会导致replication的新方案。后来我们参考了社区HDFS
2022年4月15日
其他

eBay大数据安全合规系列 - 系统篇

Driver[2]。我们已经解决了的问题如下,本文由于篇幅接下来会简单描述一下每个应用的优化案例,具体更加详细的内容请期待即将发表的后续文章。HDFS因为重启丢数据的问题。重启导致HDFS
2022年4月8日
其他

Elasticsearch集群容量的自适应管理

Rejections,读写拒绝发生的次数。观测这个指标可以有助于我们判断,部分节点异常有助于判断是否存在热节点问题,而所有节点Rejections的上升可以判断集群性能是否存在瓶颈。API
2022年3月25日
其他

解决Istio中遇到的间歇性连接重置问题

reset时候的具体信息,这里注意到socket的状态是TCP_LISTEN,通过检查内核代码以及TCP连接的状态机我们可以知道,如果一个socket的状态是TCP_LISTEN,它只会接收TCP
2022年3月11日
其他

韩志超:eBay基于图神经网络的实时风控实践

embedding的推断过程。这三种边在端到端在学习的过程中都是会被用到的,只是在推断的时候被拆为了两部分,这样就保证了在对于交易风险评判的时候,只有少量的关联节点被获取到对应的构图。2.
2022年2月25日
其他

数据平台管理之道|如何提高管理效率

Hadoop/Spark自助分析系统实践(点击阅读)。而大部分系统对于一些核心组件的监控也一样不完整,在我们2021年分享的文章“Hadoop平台进阶之路
2022年2月18日
其他

我在 eBay 负责整体的 Web 流量的这几年,学到了这些......

扫码跟我学输入口令「paicha999」有惊喜哦点击「阅读原文」,我在专栏中等你!
2022年1月12日
其他

比用户更懂用户|新一代用户行为追踪和数据洞见

Tracking目前正致力于实现一种客户端与服务器端数据连接方案,以方便用户进行更全面的用户行为分析。此外,目前对于Native应用上的追踪数据并不全。与此同时,作为典型站内解决方案,Surface
2021年12月31日
其他

eBay支付核心账务系统之直冲云霄

cluster”),TPS的显示一半在上面,一半在下面。为此,我们加了6组PU集群,总共256组,为2的8次方。从压测结果(如下图左中部分所示)可以看出“fam
2021年12月10日
其他

干货|Spark优化之高性能Range Join

基于Range构建的查询方案设计如下表所示,我们现有一个Range表(原始数据是非排序的,为了更好的展示例子,这里按照第一列做了排序),含有6行数据:基于上述这个表,我们建立了一个Range
2021年11月12日
其他

亿优百倍|商品数据服务缓存与代码优化

NuVK线性执行示意图(点击可查看大图)对于MIS,批量查询和更新(尤其是批量查询)是下游客户的一大主要需求。在某些情况下,一次批量查询会有大于20条数据。而我们观察到的(P95,
2021年10月29日
自由知乎 自由微博
其他

亿优百倍|商品数据服务TiDB性能优化

Spanner和CockroachDB,前者采用硬件级别的时间授时机制(原子钟+GPS),再加上算法层面的控制,将授时延迟控制在1ms-7ms之内;而后者采用NTP(Network
2021年10月22日
其他

亿优百倍|商品数据服务百倍性能优化之路

MIS系统分层架构图(点击可查看大图)下面我们将介绍架构中的几个重要思考以及一些重要问题的解决方案。因为本次分享的核心是“性能”,所以我们会在和性能相关的内容有更多的着墨。3.2.1
2021年10月18日
其他

eBay支付核心账务系统之“展”翅高飞

Controller不停地查询新PU集群节点日志的拉取状态,当所有节点拉取到的日志和源PU集群日志足够接近同步(即准实时)时,给源PU集群发送扩展命令;5)源PU集群收到扩展命令后,在日志(Raft
2021年10月9日
其他

干货|eBay基于Istio的应用网关的探索和实践

Istio多网关多集群部署(点击可查看大图)eBay应用的生产环境部署通常会跨三个数据中心,因此需要支持Istio多集群的部署。社区对于Istio多集群提供了多种方案,这里我们倾向于选择Istio
2021年9月23日
其他

eBay支付账务系统架构解析之“读”一无二

Source,它被抽象成一个只能追加且能无限延伸的一维数组,数组的每一项即为事件。而“读模块”的主要功能是把这个数组完整无误地传递给下游。整个“读模块”,按功能可以分成复制子模块和处理子模块。2.1
2021年9月10日
其他

ClickHouse集群|Operator跨Kubernetes集群管理

API的应用也能发现它)等。Operator模式是如此的受欢迎,以至于很多应用软件都出现了开源Operator,ClickHouse也不例外。由Altinity开源的ClickHouse
2021年9月3日
其他

分享|eBay边缘节点的云原生网络实践

边缘节点的特征边缘节点的主要作用是将外网的请求接入数据中心,并且根据不同的L7转发规则将用户请求转发到不同的应用集群进行相应的处理。所以边缘节点上会配置公网的VIP地址,它主要有以下几个特征:①
2021年8月13日
其他

亿展宏图 第七篇|动态图算法

使用了接近相对传统GAT[2]的自注意力(self-attention)网络(如下图所示)。这相对于实现层面而言,引入的概念并不复杂,易于实际应用。(点击可查看大图)不过在集中注册这个场景上,
2021年7月30日
其他

亿展宏图 第六篇|相似度构图的高效聚类方案

Neighbors)也要聚类好几天,那该采用什么方法才能快速有效地进行聚类呢?这里就要隆重介绍一下我们自研的基于FAISS-gpu的HDBSCAN算法。HDBSCAN的全称是Hierarchical
2021年7月23日
其他

亿展宏图 第五篇|基于异构图的深度学习算法

作者|张子韬编辑|林颖供稿|eBay支付风控团队本文共4074字,预计阅读时间10分钟更多干货请关注“eBay技术荟”公众号导读“亿展宏图”是eBay支付风控团队推出的系列文章,分享了eBay风控团队工作在图算法方面的一些理解和研究。在上期的亿展宏图
2021年7月17日
其他

亿展宏图 第四篇|当图算法遇到大数据

第三篇|如何高性能训练图神经网络里,我们介绍了训练图神经网络的三种图采样范式和DeGNN算法,以此来更高性能地训练图神经网络。本期亿展宏图,我们将介绍在图算法中解决海量数据的方法。引
2021年7月9日
其他

亿展宏图 第三篇|如何高性能训练图神经网络

如何高质量采样。研究者已经提出了3种不同的采样范式,分别是:基于节点的采样、基于层的采样和基于子图的采样,见下图所示。三种采样范式图解(点击可查看大图)1、基于邻居节点的采样方法
2021年7月2日
其他

亿展宏图 第二篇|图算法在eBay支付风控领域的应用

Embedding):在图上利用随机游走的方式进行嵌入(Embedding),将嵌入与风险特征拼接用于下游任务的学习。图嵌入(点击可查看大图)3)图神经网络(Graph
2021年6月25日
其他

亿展宏图 第一篇|两张图入门图算法

Algorithm)作为侦探的好帮手,可以帮我们通过图深度学习的算法快速定位人与人以及人与物之间的微妙联系,用于抓住企图利用平台而做的不良行为。导读
2021年6月18日
其他

一探究竟 | eBay流量管理之重新发现TCP重传

对于访问经过了LB的情况:server上的日志显示,这个请求的处理耗费了1703毫秒。如下图:(点击可查看大图)client上的日志显示,这个请求消耗了两千多毫秒,如下图:(点击可查看大图)2.
2021年4月9日
其他

分享 | ebay服务器稳定性测试的探索和实践

ebay有十二万台服务器,机器的检测和维修需要耗费大量人力,而且有些问题单靠人力很难解决,比如稳定性问题的重现,一直是痛点和难点,需要自动化的解决方案。2.
2021年3月26日
其他

干货 | eBay的4层软件负载均衡实现

Pod并维护follower的路由状态。但是这个协议有一个致命的缺陷,就是如果集群的大多数宕机了,整个raft算法就失效了。2)集中式的健康检查控制器。相当于再单独部署一个控制器专门为这些TLB
2021年3月12日
其他

干货 | eBay Feature测试环境上k8s的实践

Feature测试环境从创建到宕机在准备好了NameService,TFAP以及TFD之后,一个基于Istio的Feature测试环境就创建出来了。这里其实还有一些CMS(configuration
2021年2月26日
其他

平台迁移那些事 | 企业级消息系统测试之道

Mirror从消息数据库中选取一定的消息,复制一份并且加上与消费者一致的亲和配置,重新写入数据库并等待消费者来消费消息。两个消费者根据亲和配置,分别消费属于自己的消息,并且记录结果。BES
2021年2月5日
其他

分享 | Spark Skew Join的原理与优化

join并不保证在整个处理过程中每一个算子的结果的正确性,而只保证join后结果的正确性。如果我们再看图4中的例子,其中有一个CustomShuffleReaderExec会做duplicate
2021年1月22日
其他

Hadoop平台进阶之路 | HDFS NameNode性能优化实践

NameNode的API操作处理)后,将结果返回给client的操作阶段。上图结果表明,在我们集群开启有Security模式下,其中涉及到的加解密过程的开销还是挺大的。本身我们已经开启了async
2021年1月8日
其他

从OpenStack到Kubernetes | 如何在大规模产线应用迁移中保证高可用性?

team面前的一道难题。上节提到,每一个Production的应用在eBay内部都应该跨多个数据中心,通过GTM来进行负载均衡到达HA的目的。其实在每一个数据中心内部,都存在着不同的
2020年12月25日
其他

从Druid到ClickHouse | eBay广告平台数据OLAP实战

API的查询直接提交内部线程池执行,线程池的大小根据ClickHouse的集群机器数量设置。查询请求执行前会进行校验,过滤所有非法以及资源不可预估的请求。Public
2020年12月11日
其他

Hadoop平台进阶之路| 一场PB规模量级的HDFS数据迁移实战

preserve操作的前置在拷贝大目录操作的时候,我们发现DistCp在所有task执行后经常会卡在最后commit阶段,后来才知道是在做目录ACL的preserve保留操作。这与文件ACL
2020年11月27日
其他

技术分享|基于图的大规模微服务Trace分析方法与企业实践

Flow,并且寻找出错误传播链,结合分析型数据库和图数据库提供了三个层次的高效率的查询接口。为了解决架构难以理解、单个Trace无用、根因难以确定等问题,我们在GMTA基础上实现了GMTA
2020年11月25日
其他

超越“双十一” | ebay支付核心账务系统架构演进之路

7(点击可查看大图)但是,该设计最明显的问题在于吞吐率极低。数据中心之间的时延决定了每秒处理能力的上限。一般跨数据中心的时延为100毫秒,处理上限每秒仅为10笔转账,无法接受。图
2020年11月11日
其他

平台迁移那些事 | eBay GC调优策略的实践

overhead达到了100%的情况。意味着这段时间内,该机器不能对外提供服务。这是一个很危险的情况,而且并不是偶然。图10(点击可查看大图)原因分析>>我们找到其中一台机器在GC
2020年11月6日
其他

Hadoop平台进阶之路 | eBay Spark测试框架——Woody

count和checksum以及sample),然后对这些输出数据清空复原。在两个版本的Spark应用均运行结束之后,对比其结果,如果结果一致,则代表两个Spark版本的数据是一致的,是兼容的。1.
2020年10月29日
其他

数据之道 | Akka Actor及其在商业智能数据服务中的应用

actor,可以近似认为为每个table在进程内存中创建一个代理(proxy,如下图所示)。所有对该table的访问,都由该table在整个DataExpress2.0集群中唯一的table
2020年9月29日
其他

平台迁移那些事 | eBay百亿级流量迁移策略

的适配,也就是前面提到的“核心类库冲突,不同框架适配”的挑战。这就需要对所有涉及到的知识都有深入的掌握,然后才能处理这些问题。比如V3Batch是eBay自己写的框架,Raptor
2020年9月18日
其他

eBay云计算“网”事|网络重传篇

Balancer)节点来对接收的数据流量进行分发。这些SLB节点原本部署在物理机上,在将某个业务节点部署到Kubernetes集群后,发现每10秒的重传包个数,相对于运行在物理机上时更高,
2020年9月3日
其他

分享 | eBay TESS,我心中的那朵“云”

Kubernetes”中所讲的上层应用和底层Infrastructure的解耦,从而达到应用层和Infrastructure层各自的灵活性。目前TESS团队正在做以下几件事情:快速OS迭代能力(OS
2020年8月21日
其他

前沿 | BERT在eBay推荐系统中的实践

Titles这一任务时,各项指标进一步提高了111.0%、38.6%、38.3%和64.0%。由此可以看出,我们提出的以BERT模型为基础的基于项目的协同过滤算法具有明显的优越性。表1:
2020年8月7日
其他

eBay云计算“网”事|网络丢包篇

问题复现我们写了socket收发数据程序,模拟数据下载上传的行为,希望能够复现数据传输失败的现象。在几个节点上做测试,甚至将数据速率调整为业务发送数据量的两倍,也并没有相应的现象出现,复现失败。3.
2020年7月24日
其他

数据之道 | 属性图在增强分析平台中的实践

SQL解析,逐条分析出SQL中的table和column之间的依赖关系。将这些逐条分析出的关系构建成一个完整的关系图,图上的节点是table和column,边则是产生具体依赖关系的算子,Data
2020年7月10日
其他

eBay云计算“网”事 | 网络超时篇

namespace、端口信息、CPU核、调用时间、进程号、数据包的五元组、数据包长度等信息。因为我们的节点上会同时使用iptables和ipvs,所以也抓取了iptables和ipvs
2020年6月12日
其他

数据之道 | SLA/SLE监控与告警

大数据系统有着很高的要求。高质量、高可靠、准时到达的数据不仅仅是AI、数据建模的基础,更是eBay业务部门做业务决策的重要基石。iDO(Intelligent
2020年5月29日