想了想,还是把过往一段时间里,我们在稳定性建设中的实践记录下来,包含一些思路和方法,也算是一部大型踩坑记录,也只是一些实践过的野路子、野方法。
RocketMQ groupChannelTable内存泄露引发的线上问题
这次遇到的问题比较特殊,是在某个特定场景下会触发RocketMQ
的问题。
啥?64KB?JVM老年代大小之谜
问题很简单,JVM源码捡起来再看看~
对,不再手动封装JNI接口,试试JNA吧
最近团队内算法的同学对人脸算法进行封装,提供了so库给到业务团队使用,以替换外部供应商的算法库。
一次ARP缓存满引发的Pod DNS解析异常问题
这次的问题挺有意思的~
一个容器缺少Capabilities带来的小问题
前段时间,有团队的同学在边缘服务器上遇到问题,最终定位和Linux Capabilities
有关,定位过程并不复杂,回顾过往算是第二次遇到类似问题,所以还是打算记录下来。
小踩坑 - Doris单租户最大连接限制
很早之前团队就开始用的Doris
,且是用在业务场景,而非大数据的聚合分析场景。
对没错又是压测惹的祸
最近有一段时间没搞压测了,团队里的同学也在搭建线上压测平台,想着今年七、八月份能够在业务压测中线上实战一把。
成功升级ZooKeeper:兼容性与性能实践探索
在之前的一篇文章中有提到,我们作了一些ZooKeeper
上的资源管理实践。
记录我们在ZooKeeper上的资源管理实践
并不是专业运维,如果有更好的想法欢迎讨论。