查看原文
其他

eBay 开源项目推荐

2017-08-14 开源中国

点击图片报名参加广州&珠海源创会


开源数据质量解决方案 Apache Griffin

https://www.oschina.net/p/griffin

Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。  

Apache Griffin填补了开源世界里在大数据质量领域的空白。就像空气质量,水和食品安全等无时不刻地在影响人类的生命一样,数据质量在数据科学领域是至关重要的。在大数据时代,企业决策调整,商机发现等越来越依赖于大数据的数据分析和数据挖掘,而数据质量的保证是所有一切数据分析和数据挖掘的基础。

系统架构:


开源SOA平台 Turmeric

https://www.oschina.net/p/turmeric

Turmeric是eBay公司开发的SOA开源平台。这个平台拥有一个完整的安全措施驱动的保安系统,它基于Java,遵守WSDL, SOAP, XML, JSON, XACML, REST等主要标准,支持各种协议和数据格式的可插拔,可用于SOA的服务端以及应用端的开发、部署、安全保护、运行和监控。平台提供了Eclipse 插件,辅助SOASOA的服务端以及应用端程序的开发。当前发布的版本是1.0.0 GA,包括eBay公司内部使用的类似平台的大部分组件,只是将其中依赖于商业产品的一些功能去除,并代之以开源的等价实现。

由于来自eBay的生产系统,Turmeric的可扩展性和定制性都非常出色,而且为大规模系统进行了优化。 而且,Turmeric已经在eBay内部使用多年,开发了超过150个SOA服务。其中有些服务已经开放给大众使用(http://developer.ebay.com/products/overview/)

Turmeric平台架构图

Turmeric平台主要包括:

  • 运行环境支持开箱即用多种数据格式(SOAP,XML, JSON, REST, 和 Binary XML)。

  • 各种服务质量(QoS)有关的功能,如,身份验证(Authentication),授权(Authorization),和使用率限制(Rate Limiting),可通过为服务定义安全措施(Security Policies)来控制。

  • 内置在运行环境的指标收集系统和运行监测。

  • 基于服务库的服务注册和管理。

  • 支持数据类型库,提供定义和管理类型的能力,使得定义的数据类型可在多个服务里重用。

  • 报错信息库是另一个有用的功能,它让你能定义和管理跨服务使用的报错信息。

eBay公司还与云计算的开源软件公司Intalio合作。由Intalio提供商业应用的客户支持。


Web服务器监控和管理 REST Superman

https://www.oschina.net/p/restsuperman

REST Superman 已改名REST Commander是 eBay 开发的一个使用快速并行的异步 HTTP/REST/SOAP 客户端开发的服务用来监控和管理10000台 Web 服务器,可在 10 秒内发送请求到 1000 台服务器,或者 50 秒内发送请求到 10000 台服务器。


Hadoop 数据安全方案 Apache Eagle

https://www.oschina.net/p/apache-eagle

eBay公司隆重宣布正式向开源业界推出分布式实时安全监控引方案 - Apache Eagle ,该项目已正式加入Apache 称为孵化器项目。Apache Eagle提供一套高效分布式的流式策略引擎,具有高实时、可伸缩、易扩展、交互友好等特点,同时集成机器学习对用户行为建立Profile以实现实时智能实时地保护Hadoop生态系统中大数据的安全。

Eagle 是开源分布式实时Hadoop数据安全方案,支持数据行为实时监控,能立即监测出对敏感数据的访问或恶意的操作,并立即采取应对的措施。

Eagle具有如下特点:

  • 高实时: 我们充分理解安全监控中高度实时和快速反应的重要性,因此设计Eagle之初,我们竭尽可能地确保能在亚秒级别时间内产生告警,一旦综合多种因素确订为危险操作,立即采取措施阻止非法行为。

  • 可伸缩:在eBay Eagle 被部署在多个大型Hadoop集群上,这些集群拥有数百PB的数据,每天有8亿以上的数据访问时间,因此Eagle必须具有处理海量实时数据的高度可伸缩能力。

  • 简单易用:可用性也是Eagle产品的核心设计原则之一。通过Eagle的Sandbox,使用者仅需数分钟便可以设置好环境并开始尝试。为了使得用户体验尽可能简单,我们内置了许多很好的例子,只需简单地点击几步鼠标,便可以轻松地完成策略地创建和添加。

  • 用户Profile:Eagle 内置提供基于机器学习算法对Hadoop中用户行为习惯建立用户Profile的功能。我们提供多种默认的机器学习算法供你选择用于针对不同HDFS特征集进行建模,通过历史行为模型,Eagle可以实时地检测异常用户行为并产生预警。


HTTP/SSH/TCP/Ping并行客户端 Parallec

https://www.oschina.net/p/parallec

Parallec是一个基于Akka的快速并行异步HTTP(S)/SSH/TCP/UDP/Ping 客户端的Java库。它是eBay云计算部门开发并在REST Superman基础上开源的。Parallec的寓意是"并行客户端": Parallel Client, 发音如 "Para-like". 更多说明请见这里

主要用途:

  • 管理监控大量HTTP/TCP/UDP服务器,ping海量服务器

  • 集群机器状态、配置探索,基于HTTP(S)/TCP Agent 或者 无agent 的大量远程任务执行,软件部署. HTTP支持SSL 客户端认证

  • 海量API聚集到任意数据存储,数据流入口

  • 并行工作流,自动检测任务进度,以便支持并行处理异步API

  • 可控并行的,多个不同API请求到同一个HTTP服务器。HTTP请求模板可以在URL, HTTP Header, EntityBody不同地方进行变量替换。这样可以很方便的对那些有REST API的数据库或者网络服务器进行并行的CRUD操作。

  • 灵活的Web服务器的压力测试,并将结果传到任何地方。


HTTP(S) 路由器 fabio

https://www.oschina.net/p/fabio

abio 是一个快速、现代、zero-conf 负载均衡 HTTP(S) 路由器,用于部署 consul 管理的微服务。

fabio 由 eBay Classifieds Group 开发, 用于处理 marktplaats.nl 和 kijiji.it 的流量。Marktplaats 所有的流量都经过 fabio ,每秒有数千个请求,分发于数个 fabio 实例。但我们并没有观察到任何延迟。

特性:

  • Go 语言单一二进制,没有额外的依赖。

  • Zero-conf

  • 通过后台观察器热重载路由表

  • 轮转和随机分布

  • Traffic Shaping (send 5% of traffic to new instances)

  • Graphite metrics

  • 请求跟踪

  • WebUI

  • 快速

  • v1.0.4: 支持 SSL 客户端证书身份认证 (see proxy.addr in fabio.properties)

  • v1.0.5: X-Forwarded-For and Forwarded header support

  • v1.0.5: 支持 Websocket (实验性)


实时大数据分析平台 Ebay Pulsar

https://www.oschina.net/p/ebay-pulsar

Pulsar 是 eBay 开源的实时大数据分析平台。

作为全球性的商务平台和支付行业领先者,拥有海量的用户行为数据。基于现有的hadoop大数据处理,已经不能够满足业务上对实时性的需求。基于过去的大数据处理的经验和对最新技术的运用,探索出一个对海量的数据流进行实时的收集,处理,分发和分析的平台。并于2015年2月底开源此平台: Pulsar。

Pulsar 作为一个复杂事件处理平台,具有快速,准确,灵活的特性,保证点到点的低延时和高可靠,从而很好得满足了的eBay秒级实时数据分析的需求。同时每秒百万级流量处理能力,给客户带来更好的个性化体验,帮助客户监控实时业务信息并定制实时营销策路,及时监测网络欺诈行为并减少机器人干预。并且Pulsar是基于标准的分布式云架构部署并跨越多个数据中心,从而保证了在系统升级和拓扑更新时没有集群停机时间。


更多软件请前往公众号菜单栏“读我”->“软件推介”查看。



推荐阅读

不谈工作,程序员一定要尝试的 8 种编程语言

给 Web 开发人员推荐的通用独立 UI 组件(二)

IBM 开源软件推荐

回顾十个 Web 开发者熟悉的经典开源项目和工具

点击“阅读原文”查看更多精彩内容

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存