IDC 장애 처리 이후 적는 짧은 소회입니다....
페이지 정보

본문
장애가 뉴스에 나올만큼 나름 큰 장애였습니다...
https://news.nate.com/view/20250407n23452
다니고 있는 회사에서 IDC를 4군데 쓰고 있고
저희도 여기 IDC에 일부 서비스를 돌리고 있어서 영향이 있었는데요.
개발자로 일하면서 IDC 정전은 두번 겪어봅니다...
2006년 발전소 사고로 인해 수도권 전력망 문제 생겨서 그때 한번 겪었고
거의 20년만에 처음입니다...
새벽에 3시 30분쯤 바로 장애가 난걸 인지하고 대충 씻고 차로 슝 가니
이미 장애처리를 하러 온 엔지니어분들이 주차하려고 줄지어 서있더라구요.
주차를 못하고 길바닥에 급하게 주차하고 들어갔습니다.
장애가 심각했는데 3층, 4층이 모두 정전으로 셧다운 되어 있었고
5시쯤 되어서야 전원이 들어오더라구요.
그런데 그때부터 지옥의 시작이었습니다.
무릇 전자장비란 오랫동안 전원차단을 안한상태로 돌아가다보니 작은 정전이나 전류/전압의 변화에도 꽤 민감하게 반응하는 경우가 있는데, 갑자기 전원이 셧다운 되었으니 안올라오는 장비가 하나둘 생겼는지 여기 저기서 탄식을 하더군요.
다행히 저희 회사는 무사히 서버가 다 올라왔지만 램뱅크 하나만 말썽이 있어서 램을 제거하고 서버를 올렸습니다.
IDC 도착하고 2시간 정도 지나서 저희 서버는 다 올라왔고 데이터 잘 있는거 확인했습니다만...
상위 네트워크 장비에 문제가 생겼는지 (저희가 관리하는 장비가 아니라서 오매불망 기다리기만 했습니다 ㅠㅠ) public 망이 안열려서 서비스를 못하고 있었습니다.
거의 네트워크 문제로 장비도 교체하고 광케이블 문제로 광케이블도 교체하고 별짓을 다해서 결국은 3시간만에 올렸습니다.
장애 발생하고나서 거의 12시간만에 집에 잠깐 와서 씻고 다시 회사로 나서는중입니다.
아마도 저와 같은 IDC를 쓰는 회사를 다시는 분들이 있어서 꽤 고통 받으시는 분들이 많으셨을 것 같습니다.
아직 장애처리 중인 분들도 있고, 다 처리하고 홀가분하게 나오시는 분들도 있으실텐데
모두들 그런 막중한 책임감을 가지고 새벽 4시에 모두 모이시는 모습에 참 책임감도 강하고 모두들 오늘을 살기 위해 나왔구나 라는 생각에 참 마음이 뜨거워지더라구요.
오늘도 이렇게 위기를 하나 넘겼으니 또 새로운 내일을 위해 열심히 준비하는 하루를 보내야겠습니다.
모두들 오늘 힘내세요.
곽철용님의 댓글

고소미님의 댓글의 댓글
그래도 우리나라 기업용 메일은 메일나라 말고는 대응이 바로 되는 경우가 없어서... 대안 찾기가 참 어렵더라구요. 메일 이전하는 것도 일이고요.
여기에 언론사도 하나 있었습니다. 참 엔지니어분이 바쁘게 전화를 받고 계시더라구요.
곽철용님의 댓글의 댓글
그러던 중, 이곳저곳 알아보다가 후이즈 통해 네이버웍스 서비스 연동이 가능하다고 해서 옮기려고 담당자 컨택하고 결제부터 해놨습니다. 메일나라 자료들 백업 방법에 대하여 스스로 할 방법이 전무한 상황이라 고객센터에 전화 넣고 있는데, 연결될 기미가 보이질 않네요. 머리 아픕니다. ㅠㅠ
고소미님의 댓글의 댓글
고소미님의 댓글의 댓글
고소미님의 댓글의 댓글
페퍼로니피자님의 댓글

네트웍 장비가 진짜 오랫동안 켜져 있는 경우가 많아서 정전나면 장비 잘 죽습니다.
문제는 백업을 제대로 안해놨다면, 장비를 교체해도 원상태로 복구하는데 한 세월이죠.
고생 많으셨습니다 ㅠㅠ
고소미님의 댓글의 댓글
여기 IDC가 디젤 발전기랑 ESS가 구비되어 있는 곳인데
장애보고서를 간이식으로 나온게 있어서 받아보니... 제대로 동작을 안할 수도 있겠구나 싶었습니다.
SIM_Lady님의 댓글

유지한다는게 참 어려운일인데 어려운일을 하고 계시군요
속이 많이 타셨겠어요. 고생많으셨습니다.
고소미님의 댓글의 댓글
고소미님의 댓글의 댓글
은비령님의 댓글

예전에 모 통신사쪽에서 정전이 있었는데, 밖에서 흡연구역에서 담소를 나누던중 비상발전기가 굉음을 내서 알게 되었습니다.
서버가 죽진 않았는데 공조기가 올 스톱.
그때 모든 문 개방하고 대형 선풍기 여기저기서 섭외해서 서버 식히느라 쌩 난리를 쳤었죠.
고소미님의 댓글의 댓글
아마도 저희가 모르는 이유가 있었던거 같습니다.
공조기 올 스톱인 상태면 서버 과열로 재부팅이 계속 되죠.. 무섭습니다 ㄷㄷㄷ
고소미님의 댓글의 댓글
Kubernetics님의 댓글

저기에 서버 다 올려져 있는데..
아직도 서비스 몇개 안됩니다.. ㅠㅠ
새벽 5시에 나와서 아직도 퇴근 못하고 있습니다..ㅠㅠ
고소미님의 댓글의 댓글
저희는 openstack으로 되어 있어서... ceph가 안올라오면 데이터 복구는 불가능하겠구나...라는 걱정으로 갔습니다만...
다행이도 복구가 되었습니다 ㅠㅠ 고생하시네요. 힘내세요.
고소미님의 댓글의 댓글
카카오IDC 화재가 스쳐지나갔습니다. 전 복구가 되서 정말 다행입니다 ㅠㅠ
달2님의 댓글

UPS로는 긴시간 버틸 수 없는 것으로 알고 있어요. 그리고 UPS에 항온항습기는 연결되지 않아서, 발전기를 돌리지 않는다면 전산실 온도가 급격하게 올라갈거에요.
IDC에 운영시 네트웍이 문제죠. 윗단에서 설정 잘못 건드리면 외부 통신이 안되버리니까요.ㅠ.ㅠ
고소미님의 댓글의 댓글
UPS로 버텨도 얼마 못버티긴하더라구요.
CXZAQWE님의 댓글

내 담당 장비는 다 복구 했는데 앞 단에서 멍 때리면 진짜 답 없죠...
모두 고생하셨습니다. ㅠ
무적전설님의 댓글

램뱅크 하나로 피해가 그친건 다행입니다.
고소미님의 댓글의 댓글
아직도 작업하는 회사가 많다고 하네요. 복구가 참 문제입니다..
고소미님의 댓글의 댓글
오늘에서야 엄청난 대형사고가 터지네요.
에스까르고님의 댓글
고생하셨어요.