详情介绍
DeepFlow专注于解决云原生和AI基础设施带来的运维挑战。核心创新在于利用eBPF技术,实现了对主机、容器、Kubernetes集群以及微服务之间调用链的自动化、无侵入式数据采集。这意味着用户无需在业务代码中植入各种监控SDK(插桩),就能获得从底层基础设施到上层业务应用的全面可观测性数据。
平台不仅采集数据,更强调数据的关联与分析。通过智能标签技术,DeepFlow能够将网络、系统、容器、服务等不同层面的数据在逻辑上打通,形成一个统一的、带有丰富上下文信息的可观测性数据湖。无论是处理一次突发的微服务调用延迟,还是分析大规模AI训练中的网络瓶颈,DeepFlow都能提供从宏观视角到微观代码执行的端到端诊断能力。自研的高效时序存储引擎,也保证了在超大规模数据量下的实时写入与查询性能,让历史回溯和实时监控同样高效。
1. 官网入口地址
DeepFlow官网入口网址:http://deepflow.io/
2. 下载地址
DeepFlow开源项目地址:https://github.com/deepflowio/deepflow
部署文档与Helm Chart仓库:https://deepflowio.github.io/deepflow
Docker镜像:可访问 docker.io/deepflowce 或 registry.cn-beijing.aliyuncs.com/deepflow-ce 获取 deepflow-agent 和 deepflow-server 等镜像。
3. 功能介绍
-
零侵扰数据采集:基于eBPF技术,自动从内核层捕获网络数据、系统调用、文件I/O等细粒度数据。对业务应用无感,无需侵入代码、无需重启进程,彻底消除插桩负担 。
-
全栈关联追踪:独创的智能标签技术,能自动同步Kubernetes标签、容器元数据、服务名等信息,并关联到每一次调用链和每一个指标上。实现了从业务请求、到容器Pod、再到操作系统线程和网络数据包的一键式全链路可视化 。
-
多协议智能解析:原生支持HTTP/1/2、HTTPS、gRPC、Dubbo、MySQL、Redis、Kafka、RocketMQ等数十种常见协议,自动解析请求内容。对于私有协议,平台支持通过Wasm扩展来进行自定义解析 。
-
高性能数据存储:自研的SmartEncoding技术将标签编码效率大幅提升,配合高效的时序存储引擎,相比传统ClickHouse方案,在写入和查询效率上有数量级的提升,能够支撑日均PB级的数据处理能力,同时显著降低存储成本 。
-
持续性能剖析:通过eBPF零侵扰地采集应用程序(如Java、Go、Python等)的函数级别CPU、On-CPU、Off-CPU和内存性能剖析数据,帮助开发者定位代码级的性能瓶颈,而无需在生产环境开启复杂的Profiling功能 。
-
AI智能体协同:结合大语言模型,DeepFlow AI智能体能够利用平台的全栈可观测数据,实现“一句话问数”、自动化的“分钟级故障诊断”以及“7x24小时不间断巡检”,将被动监控变为主动运维 。
-
统一仪表盘与告警:深度集成Grafana,提供开箱即用的多种可视化仪表盘。同时,平台提供了灵活的告警规则编辑器,支持基于任何指标设置智能化的异常检测和告警 。
4. 应用场景
-
云原生微服务运维:在Kubernetes环境中,面对错综复杂的服务调用关系和快速变化的容器实例,DeepFlow可以帮助SRE团队快速定位是哪个服务、哪个Pod、甚至哪行代码导致了调用延迟或错误,解决APM和NPM监控数据不一致的难题 。
-
分布式AI训练监控:针对联邦学习等分布式AI场景,DeepFlow利用eBPF捕获训练过程中的网络带宽占用、GPU资源使用以及模型参数同步的详细情况,帮助算法工程师和平台运维者发现“慢节点”或网络拥堵,从而优化训练效率。
-
金融核心系统保障:在强监管和高业务连续性的要求下,DeepFlow的零侵扰采集满足了金融系统对安全性和稳定性的严苛要求。智能体能够在信创异构环境中,实现从代码到交易的全程可观测和可审计的自动化故障诊断与恢复,显著降低平均修复时间 。
-
遗留系统与信创异构环境监控:对于无法轻易修改代码的遗留系统或信创异构环境,DeepFlow的零插桩特性成为优势。它可以无侵入地接入这些“黑盒”系统,为它们提供现代化的可观测性能力 。
5. 必要补充信息
-
定价模式:DeepFlow采用开源社区版和企业版相结合的模式。
-
社区版:在GitHub上开源,核心功能免费,用户可以自由下载、部署和使用,适用于开发测试或中小规模集群。
-
企业版:在社区版基础上,提供更高级的多租户隔离、基于角色的访问控制、审计日志、专家技术支持以及SLA保障等。根据息,企业版有按节点月付费和版等多种订阅方式,具体价格需联系销售获取报价 。
-
-
应用示例:某头部券商在搭建“一云多芯”智能云网全景可观测系统时,采用了DeepFlow企业版。通过全栈关联能力,实现了对不同芯片架构服务器上业务的统一监控。在一次非功能测试中,利用DeepFlow的分布式追踪功能,仅用3分钟就锁定了Java程序Netty I/O线程阻塞这一导致业务时延抖动的根因,解决了过去需要多个团队协作数小时才能定位的难题 。
DeepFlow常见问题
DeepFlow是由北京云杉世纪网络科技有限公司(简称云杉网络)开发并开源的一款产品。该公司成立于2011年,专注于软件定义网络和数据中心可观测性领域。
DeepFlow的官网地址是 http://deepflow.io/ 您可以在官网上找到产品文档、博客以及一个在线Demo环境的访问入口,可以亲身体验它的功能,无需自己部署。
你可以把它想象成一个能为你的整个云原生应用和IT基础设施做“全身核磁共振”的智能。它不需要在业务代码里埋点打桩,就能自动看清从网络数据包、操作系统,到容器、微服务,再到应用代码的每一层状况,帮你快速找到系统哪里“生病了”以及病因是什么。
如果你用的是Kubernetes环境,用Helm Chart一键安装非常简单,几条命令就能完成部署 。平台会自动开始采集数据,之后你通过自带的Grafana仪表盘就能看到丰富的监控图表,也可以到调用链追踪页面去分析具体的请求。
DeepFlow有免费的开源社区版,你可以在GitHub上下载使用。同时,云杉网络也提供功能更丰富、有技术支持和服务保障的企业版,这个是按节点数或按年收费的。
非常安全可靠。它主要基于Linux内核内建的eBPF技术进行数据采集,这是一种“零侵扰”模式,对正在运行的业务进程无感,不需要重启或修改代码。它本身性能消耗极低,经过大量生产环境验证,对业务性能的影响微乎微,特别适合对稳定性和安全性要求极高的金融等行业。
你可以遵循官方推荐的“5W”分析方法来排查故障。先看宏观的RED指标确定问题时间和对象,然后深入到调用链追踪找到具置,利用持续性能剖析数据定位到代码级的根因。多利用平台自动注入的K8s标签来筛选和聚合数据,会比看散乱的IP和端口高效得多。
它最特色的地方有两个。一个是“全栈关联”,能把一次用户请求从前端到后端的所有环节串起来,甚至能看到它在内核里的系统调用情况 。另一个是新推出的“AI智能体”,你可以直接用自然语言问它“我的支付系统为什么慢了?”,它能自动分析并给出根因和建议。
对于开源版,数据全部存储在您自己的基础设施内,不会外传。企业版在设计上也充分考虑了金融、电信等行业的合规要求,支持数据不出域、本地化闭环处理,并有完善的审计日志,确保所有数据访问和智能体操作行为都可追溯,符合等保三级和ISO27001等安全认证标准。
对于运维人员来说,它的部署和数据采集基本是“零配置”,上手体验很好。一旦部署完成,就能立即获得大量有价值的监控数据。它提供的Grafana仪表盘很直观,调用链追踪界面也很清晰。不过,要深入用好它的所有功能,比如自定义Wasm解析或编写复杂告警,还是需要花些时间阅读文档和熟悉它的数据模型。
DeepFlow本身不直接生成PPT,但你可以轻松地将它的可视化图表(如Grafana仪表盘、调用拓扑图、追踪详情火焰图)截图或导出,用于你的故障报告、运维周报或架构评审材料中。这些图表数据详实,能有力地支撑你的观点。
DeepFlow产品本身不提供生成视频的功能。不过,你可以利用第三方屏幕录制工具,将你在DeepFlow平台上进行故障排查或查看仪表盘的操作过程录制成视频,用于团队分享、培训或知识沉淀。
这取决于你自己的配置。DeepFlow使用自研的高性能存储,你可以根据需求自由设置数据的保留周期。无论是想保留最近7天的实时热数据用于快速诊断,还是想归档数月甚至更久的历史数据用于容量规划或合规审计,都可以通过调整存储策略来实现。
| 分享笔记 (共有 篇笔记) |