日志服务

其他

感谢社区!iLogtail开源GitHub Star数破1K

2022年11月7日,iLogtail在GitHub上的关注人数首次突破1000大关,感谢各位用户和开发者的关注和支持。自2022年6月29日完整开源以来,iLogtail因其出众的性能、易用的配置和便捷的二次开发能力持续受到社区关注。iLogtail的核心定位是可观测数据的采集器,帮助开发者构建统一的数据采集层,助力可观测平台打造各种上层的应用场景。iLogtail一贯秉承开放共建的原则,欢迎任何形式的社区讨论交流及公建。什么是iLogtailiLogtail是阿里云日志服务(SLS)团队自研的可观测数据采集Agent,拥有的轻量级、高性能、自动化配置等诸多生产级别特性,可以署于物理机、虚拟机、Kubernetes等多种环境中来采集遥测数据。iLogtail在阿里云上服务了数万家客户主机和容器的可观测性采集工作,在阿里巴巴集团的核心产品线,如淘宝、天猫、支付宝、菜鸟、高德地图等也是默认的日志、监控、Trace等多种可观测数据的采集工具。目前iLogtail已有千万级的安装量,每天采集数十PB的可观测数据,广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场景,在实战中验证了其强大的性能和稳定性。iLogtail项目地址:https://github.com/alibaba/ilogtail活跃的社区自2021年11月开源以来,iLogtail社区迅速发展,在GitHub的关注度持续走高。回顾iLogtail项目的发展,在
2022年11月16日
其他

日志分析下ES/ClickHouse/Loki比较与思考

Storage对于类型固定的列有良好的压缩率,例如可以通过Delta、Dictionary等编码技术压缩原始数据大小,当查询时通过Histogram进行快速跳转。Column
2021年8月4日
其他

一分钟完成访问数据的智能巡检告警

在时序巡检中,至少要包含一个巡检实体,方便后续的告警、查询、可视化等操作,在这里我们使用"all_domain_instance"作为我们的观测实体对象;实体对象的观测特征:[total,
2021年7月28日
其他

SLS SQL:融合ElasticSearch和ClickHouse的极速查询分析能力

日志常用于监控告警/问题调查等场景。通常而言,开发者在机器上操作日志的时候,常用的命令一个是grep,grep用于从日志中过滤出关键字;另一个命令是awk,可以做一些简单的计算。因而搜索和计算是日志上必须具备的能力。在云原生时代,伴随着大量服务器的部署,上机器调查问题成为不可能;更别提各种容器的使用,想查看日志更不可能。因此需要把日志集中存储,并且提供查询和分析的能力。一些开源软件为日志的查询和分析提供了解决方案。例如elasticsearch提供了搜索日志的功能,可以通过关键字搜索日志,使用的语法是自定义的SPL语法,有一定的学习门槛。尽管elasticsearch有聚合能力,但是能力非常有限,只能支持部分聚合场景,不能支持SQL全集。clickhouse提供了分析日志的能力。clickhouse的日志分析速度非常强悍,在benchmark上表现非常优秀。但是由于clickhouse没有倒排索引,因此在搜索场景表现不佳。我们都知道,在日志场景,搜索和分析是分不开的。大部分场景下,都是先搜索出部分日志,再进行聚合,类似grep
2021年7月21日
其他

Kibana交互使用实践—— Kibana Lens

入口通过Visualize菜单进入,创建一个新的可视化视图,通常情况下我们是去选择一个图表的类型,比如柱状图、饼图,第一个选项即为Lens,也能看出这类创建可视化视图的方式是Kibana首推的方法。
2021年7月14日
其他

对Kafka母公司Confluent IPO的一些解读

Lake)产生,Confeluent认为数据多源化、碎片化、建设无序的环境正在被统一。在数据湖中,更快批计算、流批一体混合模式慢慢起到实时效果。很有可能过几年,Confluent认为的“data
2021年7月14日
其他

SLS发布Scheduled SQL功能——支持大规模日志上的全局分析与调度

审计日志对用户信息脱敏,等等。在线教育:多平台终端(android、ios、PC)埋点数据的规整,直播课堂生命周期内的异常诊断,等等。游戏:按游戏的数据分发存储,全文搜索支持工单调查,等等。阿里云
2021年7月7日
其他

Kibana交互使用实践—— Discover

Query都具备一定的自动提示,KQL具备简单的语法解析能力,能根据前一个字段来动态改变提示内容,而SLS目前还是比较简单的关键词匹配,在自动提示上还有比较大的优化空间。目前SLS已经开始了SQL
2021年7月7日
其他

AIOps:自适应机器学习异常检测

1]之间;便于对接后续的业务系统同时支持较好的扩展能力:可支持数十万时序监控对象进行较为复杂的模型监控2.
2021年6月30日
其他

可观测系统存储分析最佳实践

由来提到可观测性这个词语,很多人或许会不屑一顾,"这个不就是旧瓶装新酒吗?和监控有什么差别吗?"
2021年6月30日
其他

SLS智能告警入门——分组评估

在智能告警中,我们可以使用查询分析语句来进行日志查询,并对结果集设置告警。其中,当我们希望对查询结果进行进一步的分组时,可以使用我们的分组评估功能。基本概念分组评估是告警监控规则中的一个参数。当告警监控系统对查询和分析结果进行计算时,可基于特定字段进行分组,每个分组单独评估触发条件并触发告警。即您可以使用一条告警监控规则同时监控多个目标,并对每个分组进行独立的告警管理和事件管理。例如,我们的在时序库中存储了主机和
2021年6月23日
其他

Falco系列一 --- Falco使用实战

一、什么是Falco?Falco最初是由Sysdig创建的,后来加入CNCF孵化器,成为首个加入CNCF的运行时安全项目。Falco可以对Linux系统调用行为进行监控。Falco的主要功能如下:从内核运行时采集Linux系统调用。提供了一套强大的规则引擎,用于对Linux系统调用行为进行监控。当系统调用违反规则时,会触发相应的告警。Falco提供了一组默认规则,可以监控内核态的异常行为。例如:使用setns等工具改变进程的namespace信息。对于系统目录/etc,
2021年6月16日
其他

这才是可观测告警运维平台——20个SLS告警运维场景

前言本篇是SLS新版告警系列宣传与培训的第二篇,后续我们会推出20+系列直播与实战培训视频,敬请关注。系列目录(持续更新)一站式云原生智能告警运维平台——SLS新版告警发布!这才是可观测告警运维平台——20个SLS告警运维场景(本篇)可观测告警运维系统调研——SLS告警与多款方案对比1.
2021年6月16日
自由知乎 自由微博
其他

使用数据加工将 Log 转成 Metric

链接https://help.aliyun.com/document_detail/125484.html?#section-u7i-ymg-jzpe_to_metric(names=None,
2021年5月28日
其他

助力可观察性统一平台:SLS Trace服务发布

标准目前也有一些公司开始支持了OpenTelemetry数据的接入,但都是把OpenTelemetry数据转换成公司自己内部的标准,因此无论如何都会有一定的数据损失,无法达到100%兼容。而SLS
2021年5月28日
其他

一站式云原生智能告警运维平台——SLS新版告警发布

SLS(日志服务)是什么SLS是阿里云上云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。目前对内已经是“阿里巴巴
2021年4月9日
其他

SLS机器学习最佳实践:ECS时序指标巡检

背景云服务器ECS是阿里云所提供的性能卓越、稳定可靠、可弹性扩展的IaaS级别云计算服务。使用云服务器ECS可以不用采购IT硬件设备,直接像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。众多业务或服务在ECS上面运行,机器的稳定性对维持服务的稳定性来说尤为关键。本期将为大家介绍利用阿里云SLS(原日志服务),采集ECS的CPU、内存、负载、磁盘、网络等监控数据,并进行智能巡检与异常检测,形成对ECS主机的健康监控大盘,帮助你更好的管理并维护自己的云服务器。指标说明对于云服务器的稳定性,有如下黄金指标值得我们关注:类型指标说明单位CPU相关指标cpu_utilCPU使用率,计算方式为排除idle、wait、steal后的占比百分号(%)内存相关指标mem_util内存使用率百分号(%)磁盘相关指标disk_utilIO使用率百分号(%)网络相关指标net_err_util报错数据包占总数据包的比值百分号(%)系统相关指标system_load1系统平均负载,1分钟平均值不涉及有关云服务器的更多指标(总计46个),可以关注SLS官方文档:《采集主机监控数据》(https://help.aliyun.com/document_detail/171717.html)使用流程数据接入进入SLS控制台,选择接入数据中的主机监控,可以进入如下界面:以呼和浩特集群为例,在选择了目标Project与MetricStore之后,您可以选择要监控的ECS机器,组合成机器组:这里选择的机器组要安装配置Logtail:Logtail安装成功,心跳正常后,就可以开始采集主机的监控数据啦。您只需要配置如下规则即可采集到对ECS的各项监控指标数据。有关配置参考官方文档《采集主机监控数据》(https://help.aliyun.com/document_detail/171717.html)点击左下角的开启指标巡检,SLS的机器学习服务将为您实时自动分析监控指标时序数据。智能巡检服务通过机器学习,神经网络等AI算法,以流式的方式不断学习历史数据,对当前的指标状态进行异常分析。有关算法详情请见《SLS机器学习服务简介》(https://help.aliyun.com/document_detail/172129.html)。至此,我们已经完成了ECS主机监控以及时序指标巡检的全部配置。完成配置后,您的目标project下将被创建如下工程:其中,主机监控
2020年11月6日
其他

SLS - 打造可观察性统一引擎

随着云原生的蓬勃发展,基于Tracing/Metrics/Logging的可观察性(Observabiltiy)越来越受到业界重视,在CNCF上也可以看到大量相关项目,OpenTelemetry也期望打造Telemetry数据统一的API/SDK/工具和集成,以更好的方式对数据进行管理和分析。在云原生的生态中,
2020年9月25日