이형석 비바리퍼블리카(이하 토스) 테크놀로지 헤드는 지난 5일 서울 역삼동 본사에서 이데일리와 만나 토스가 사업 초창기에 데이터센터 이중화를 결정한 배경에 대해 이같이 설명했다. 토스는 지난 2018년부터 주센터와 재난복구(DR)센터로 데이터센터 이중화해 운영하고 있다. 두 센터가 동시에 운영되는 액티브-액티브 구조를 이때부터 갖췄다. 이 헤드는 “이를 위해 전년도 매출액(약 200억원)의 40%에 해당하는 78억을 투입했다”고 했다.
데이터센터 이중화는 지난 10월 발생한 카카오 장애가 장기화 된 원인으로 꼽히며 그 중요성이 부각됐다. 데이터센터를 이중화하는 방법은 여러가지다. DR센터를 평소에 운영하지 않다가 메인 센터에 장애가 생겼을 때만 가동하는 방법이 있고, 주센터와 DR센터를 평상시에도 함께 운영하는 방식이 있다. 후자를 액티브-액티브 방식이라 부른다. 두 센터가 모두 활성화돼 있다는 의미다.
|
이 헤드에 따르면 토스는 주센터와 DR센터의 인프라를 동일한 용량으로 준비해 놓고, 양쪽을 모두 사용하고 있다. 두 센터 모두 데이터를 100% 가지고 있고, 애플리케이션도 작동하고 있어 트래픽을 실시간 처리할 수 있는 상태다. 평상시에는 각 센터가 트래픽을 50대 50으로 나눠 처리하다가, 한쪽에 문제가 생기면 다른 쪽으로 트래픽을 완전히 옮겨 중단 없이 서비스를 운영할 수 있는 구조다.
이런 구조 덕분에 “재해나 사이버공격으로 인한 장애뿐 아니라 시스템증설 작업으로 서비스 점검이 필요할 때 트래픽을 한쪽으로 완전히 몰아 버릴 수 있고, 이용자는 아무 영향도 받지 않고 서비스를 계속 이용할 수 있다”고 이 헤드는 설명했다.
액티브-액티브 방식으로 데이터센터를 이중화하려면 상당한 비용이 들어갈 수밖에 없다. 완전히 동일한 쌍둥이 데이터센터를 운영해야 하기 때문이다. 이 헤드는 “원래 필요한 인프라보다 항상 2배를 더 가지고 있어야 한다”며 “평상시에는 한 센터가 가용량의 20%도 쓰지 않는 상태다”고 소개했다.
투자는 많이 필요하지만, 운영 안정성 측면에서 효과는 확실하다. 실제 올해 상반기 분산서비스거부(DDoS·디도스) 공격이 발생했을 때도 큰 장애 없이 서비스를 유지할 수 있었다. 공격 당시 서비스 응답이 지연되는 영향을 받았는데, 단 4분 만에 정상화시켰다.
토스증권과 토스뱅크는 토스가 전면 장애가 나는 상황에도 정상 작동할 수 있도록 별도의 시스템을 구축했다. 이 헤드는 “토스증권의 모바일트레이딩시스템(MTS)은 멈추면 절대 안 되는 크리티컬한 시스템이기 때문에, 별도의 인터넷데이터센터(IDC)를 갖췄고 토스 앱이 전면 장애가 나도 문제 없이 쓸 수 있도록 시스템을 설계했다. 토스뱅크도 마찬가지”라고 설명했다.
그는 “토스는 ‘국민들이 모든 금융 생활을 토스 안에서 다 영위할 수 있는 서비스를 만들자’는 비전을 갖고 있기 때문에, 세계 최고 수준의 안정성을 확보하기 위해 노력하고 있다”며 “원천적으로 장애를 막을 순 없지만 장애의 영향도를 줄이고 사용자들이 불편함을 느끼지 못하게 하는 데 최선을 다할 것”이라고 강조했다.