aws的各种坑-甲

坑太多，用甲乙丙丁戊己庚辛壬癸编号还不一定够

挨个从support里扒吧，万一哪天跑了看不到support的记录了岂不是亏了么，留在这记录着吧，希望这一举动不会给我惹事

这个case严格的讲应该跟fluentd有关，趁着还算新鲜，记一笔吧，不完全从support里拷贝：

daemonset的fluentd在极个别场合（具体怎么个极其特别尚不可知），会往死里吃内存。

因为是按aws在github上的说明装的，没配置resource的request和limit，于是这个二百五就往死里吃内存，把节点内存吃了个精光，直到触发OOM被干掉。

最为可耻的是，触发OOM之前，还会把别的业务pod给挤掉。

因为无法复现，所以暂时不太好确定原因。只看到不少dmesg格式的log无法被fluentd解析，但这不应该成为导致OOM的理由。

第二个奇怪的地方是，同样的ami跑起来的节点，出现OOM的fluentd就只有一台，重启后时不时还会复现。

节点组更新ami后问题消失，但是根据support自己的说法，更新过的ami并无log相关调整，也无直接影响fluentd的调整。

So，这个坑没结论。

eks awk k8s

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！