나는 항상 순위를 메긴 기사나 리스트형 기사를 좋아 한다! ^^;
그냥 왠지 정리되어 보이고 요약형태로 되어있어 제목만 읽어도 된다는 귀차니즘에...
어제 ZDnet 보다 역시나 눈에 띈 기사 "The top 10 IT disasters of all time"
오오~~ 거창한 제목이다!! 내용을 살펴보자!!
(원문내용은 ZDnet영국판이나 번역본을 보시면 됩니다.)
[아~~ 그리고, 인명 피해가 있었던 IT사고는 제외하였다고 함!!]
1. Faulty Soviet early warning system nearly causes WWIII (1983)
(3차 세계대전 직전까지 갔던 소련 조기 경보 시스템 오류)
공상과학에나 나올만한 이야기지만 83년 소련 조기경보기가 미국에서 미사일 5대가 발사되었다고 오보한 사고, 그때 경계 시스템 담당 장교가 미국이 소련을 공격하면서 겨우 5대의 미사일을 쏜것이 먼가 이상하다는 생각에 3차 세계대전은 이러나지 않았다고 한다. 원인은 조기경보 시스템의 구름에 반사된 빛을 미사일로 오인하지 않게 하는 시스템이 잘못되어 이러난 해프닝이였다고 함.
그 소련 장교!! 과연 원리원칙(By the book)대로 행동하였다면 내가 이자리에서 이렇게 글을 쓰고 있을까?
그리고, 오류를 방지 하기위한 시스템의 오류!! IT에서 가장 무서운 오류가 아닐까? 그래서 요즘은 이중삼중으로 이러한 오류 방지시스템의 오류를 방지하는 시스템도 있으니!!
예전에 원전 제어봉 컨트롤 시스템을 개발하시는 분을 만나뵌적이 있는데...그땐 그런 생각을 못했는데 소스 한줄 코드 한줄 짜면서 얼마나 살떨렸을까? 자신의 엔터키 하나가... 몇만, 몇백만 사람의 목슴이...
으~ 목숨걸로 코드를 짜야 겠다는!!
2. The AT&T network collapse (1990)
(AT&T 전화망 마비)
90년에 미국 AT&T 전화 144개의 교화국 중 하나의 교환기에 작은 오류가 있어 이를 재시작하였다. 문제는 이 교환기가 다시 올라오면서 다른 교환기에 메세지를 보내 모두 재시작!!!
원인은 대단위의 S/W업그레이드를 하면서 있었던 코드 한줄의 오류였다고 한다. 이로인해 75백만호의 전화가 연결되지 못했다고 하니, American Airline에서만 약 200,000만건의 예약을 받지 못했다고 한다.
나도 항상 고도화다, 업그레이드다 하여 이런 S/W적 시스템적 향상 작업을 하고 있지만, 왠지 이런 업그레이드를 하면서도 오류는 당연히 있을거라고 생각하게 된다. 심지어 사용자들도 이제는 신제품이나 서비스팩이 나오면 남들이 충분히 사용해볼때까지 기다려주는 센스를 발휘한다.
개발자의 책임은 과연 어디까지 일까?
3. The explosion of the Ariane 5 (1996)
(아리안5 폭발)
96년에 인공위성 4대를 실은 발사 로켓이 발사 36.7초만에 폭팔하는 사고!
원인은 측면 속도 측정 64bit데이터를 16bit공간에 넣을려고 하다가 overflow가 나면서 유도 시스템이 정지되면서 발생한 사고다. 하나더 재미 있는것은 이러한 오류가 나면 이를 백업할 수 있는 2중화 구성이 되어있었단다, 그런데 어짜피 그 시스템도 같은 S/W가 깔려있었을 테니 당연히 같이 오류를 발생시키고 같이 정지 해버렸다는 사실!
이중화!!! 요즘 대부분 시스템이 이중화를 하지만, 결국은 H/W의 이중화지 S/W적인 오류에는 거의 무방비인 상태, 결국 한 시스템이 S/W오류로 H/W에 영향을 미쳐 정지 된다면 아무리 이중화가 되어 있다고 해도 무의미 해지는...
글로벌 보험사의 DR센터 시스템 구축 프로젝트의 RFP(제안요청서)에 이런 내용이 있었던 것이 기억난다.
"이중화 시스템 구성 계획 및 Scale Downed Fail-Safe 시스템 구성 계획을 제출 하시오."
처음에 보고 먼 소린가 했다. 결국 그쪽 관계자가 이런 설명을 해주시더라~ "윈도우나 CMOS에 오류가 생겨서 리부팅을 하면 선택할 옵션이 여러개 있습니다. 도스모드 부팅, Fail-Safe모드, 안전모드 등~ 즉, S/W적 오류를 최소화하기 위해 이전 S/W작업을 무력화 할 수 있으면서도 기본 시스템을 가동 시킬 수 있는 방법이 필요합니다."
오홋!!! 이 RFP와 설명을 들은 이후로 나도 제안을 하거나 제안 요청서를 만들 때 슬쩍 이 내용을 추가시키고 있다. ㅋㅋ
4. Airbus A380 suffers from incompatible software issues (2006)
(소프트웨어 호환 문제로 발생한 에어버스 A380 사건)
이 사건은 에어버스의 두 자회사인 프랑스 다소 항공(Dassault Aviation)과 독일 함부르크 공장의 의사소통 문제 였다고 한다. 간단하게 말해서 독일 시스템은 구 버전 디자인 툴를 사용했고 프랑스 시스템은 최신 버전을 사용했다. 따라서 에어버스가 항공기의 두 부분을 조립하려고 하자 소프트웨어 차이로 인해 한쪽의 배선이 다른 쪽의 배선과 맞지 않는 상황이 벌어졌다. 결국 케이블 배선을 다시 해야 했다. 결국 프로젝트가 1년 연기되는 사태가...
협업에서의 커뮤니케이션의 중요성은 말할 필요가 없지!! 극단적인 경우였겠지만, 제발 의사소통 좀 하면서 살자!!! ㅠㅠ;;
이 문제 하나로만 책 한권은 쓸 수 있을 것 같다. 나름 날고 뛰시는 분들과 일을 해보면서 "이런 속도로, 이런 로직으로, 이런 Output이!!" 깜짝 깜짝 놀란다. 그런데!! 커뮤니케이션 스킬은...약하다. 물론 이러한 커뮤니테이션의 오류로 생기는 부분은 워낙 빠른 속도로 수정 또는 매꿔주시기에 할말은 없지만, 그래도 첨부터 시간을 조금 들여 소통했다면 뒷 북 치는 일은 줄텐데 라는 생각이... ^^;;
5. Mars Climate Observer metric problem (1998)
(화성 기후 탐사선 미터법 문제)
화성기후 탐사선이 궤도 측정을 잘못하여 너무 낮게 날아 추락하는 사고!
원인은 하청업체가 NASA 표준인 미터법을 사용하지 않고 미국 표준인 인치법을 사용했다는 ㅠㅠ;;
(음~~ 이건~~ 사실!! 미국이 이상한거 아냐..? 누가 인치 쓰래..??)
할말 없음~!!
6. EDS and the Child Support Agency (2004)
(EDS와 영국 아동지원청)
EDS(비즈니스 솔루션 기업)의 CS2 컴퓨터 시스템은 지원금을 190만명의 사람들에게는 초과 지급했고 70만명 정도에게는 적게 지급했다. 영 노동연금부(DWP)가 CS2를 도입하면서 동시에 CSA(아동지원청)를 구조조정을 하기로 결정한 것이 원인!
큰 시스템을 도입 하면서 동시에 구조 조정이라!! 역시 두 개의 큰산을 한번에 움직이려 하다가 생긴 인재로 보는 것이 맞을 듯!
내가 속한(또는 속했던) 어떤 조직은 뻥을 조금 친다면 연말이 되면 업무가 거의 멈추다 시피 한다. 이유는 단순하다, 구조 조정 때문에!! 연말마다 무시무시한 조직 이동과 인사 이동 때문에 사실 가장 바빠야 하는 연말에 사업진행 자체를 멈춘다. 어짜피 개편이 일어 나면 원점에서 다시 해야 하기에 그냥 멈추고 기다린다.
두 사건이 모두 극단적인 예이겠지만, 실제로 발생하고 있다는 것이 놀라울 따름 이다. ㅜㅠ
7. The two-digit year-2000 problem (1999/2000)
(2000년 연도 표기 문제)
많이들 알고 계시는 밀레니엄 버그 사건. 사실 별일 없었다! 하지만 1999년 12월 31일 많은 IT종사원들은 서버실과 시스템을 지키고 있었을 것이다. 난 그랬다. 컴퓨터와 서버 수십대를 멀뚱 멀뚱 쳐다보며 이런저런 테스트를 하고 이상이 없을 확인하고 새벽에 투덜거리며 술마셨던 기억이 있다.
80~90년대에 년도를 두자리로 인식하게 해두었던 설계가 10~20년 후에 나를 고생 시킨것이다. ZDnet이 이 사건을 뽑은 이유도 바로 이러한 버그들을 고치기 위해 들어간 인적/물적 비용이 있었기 때문이다. 물론 전세계가 밤세워 잘 대처 했지만~
(누구는 가족과, 누구는 술과 파티로, 누구는 컴터와 온라인 이벤트로~)
역대 가장 재미 있는 해프닝이 아니였을까??? ㅋㅋ
8. When the laptops exploded (2006)
(랩톱 폭발 사고)
최근에 일어난 일 중 하나 이다. 델이 일본에서 노트북 전시회를 하다가 많은 사람들이 지켜 보는 가운데 불이 나고 폭파 되었다. 물론 방송에서 여러분 소개 되었다.
원인은 소니사의 바테리 문제로 밝혀 졌고, 이 이후 애플이나 마쯔시다등 여러 제품에서 같은 문제가 발생했고, 소니와 여러 기업들은 바테리를 리콜하는 사태를 벌였다.
이 사건을 보며 왠지 독과점(? 한 부품을 한 업체에 의존하는 현상 ?) 생각난다. 혹시 삼성 PC 메모리에 이런 일이 생긴다면?? 우리나라 뿐만 아니라 많은 곳에서 난리가 나겠지? 아니 전세계 경제 전체가 흔들리고, 우리나라가 제2의 IMF로 빠지고, 삼성은 사라지고~~ 소설의 소재로 딱인데... 흠~~
아!!! 그리고 ZDnet에서 일본에서 생긴 델 노트북 폭파 사건 비디오 파일를 구한다고 합니다. 이 비디오가 갑자기 인터넷 상에서 사라졌다고 하네요 ^^ 오~~ 여기도 영화 소재가~~ Conspiracy ㅋ
9. Siemens and the passport system (1999)
(지멘스와 여권 시스템)
내용을 그대로 옮겨 보자면..
1999년 여름에 50만명의 영국 시민들은 신규 여권을 제때 발급받지 못해 불편을 겪었다. 여권국이 지멘스 컴퓨터 시스템을 새로 들여오면서 충분히 테스트를 하지도 않고 먼저 직원들을 교육하지도 않았기 때문이었다.
수백명의 사람들이 휴가를 망쳤으며 내무성은 수백만파운드를 보상금으로 지불해야 했으며 직원들은 초과 근무를 해야 했다. 그리고 여권을 받기 위해 빗속에서 기다리는 불쌍한 사람들을 위해 우산도 제공해야 했다. ^^;;
원인은 위에 다 나와 있지만, 사실 이때 갑자기 여권의 요청이 많았던 이유는 따로 있었다고 한다. 법이 개정되면서 사상 처음으로 16세 이하의 모든 자녀들이 해외여행을 하려면 여권을 받아야 한다고 요구했기 때문이었다.
이 문건 자체가 영국쪽 ZDnet기사다 보니 영국 이야기에 좀 치중이 된 느낌이네요. 한국의 역대 IT재난을 뽑으라면 어떤 것이 있을까요?
10. LA Airport flights grounded (2007)
(LA 공항 이륙 불가 사건)
올해 초 소프트웨어 문제로 로스앤젤레스 국제공항에 약 1만7,000대의 비행기가 이륙하지 못하는 일이 있었다. 미국 세관 및 국경보호국의 시스템에 발행한 문제는 한 대의 평범한 싸구려 장비로 인해 생긴 간단한 것이었다.
여기서 말하는 싸구려 장비는 바로 네트워크 카드 였습니다. 즉, 우리가 그냥 간주하고 넘어 가기 쉬운 단순한 장비가 전체 네트워크를 마비 시킨 것이였습니다.
역시 IT는 어렵습니다. 저도 IT분야에 거의 8~9년을 몸담고 있지만, IT의 중요성이 증가함에 따라 그 위치에 맞는 책임을 지게 되는 것 같습니다.
오늘도 무거운 R&R이 어깨를 짓누르는 느낌입니다.
^_^ 역대 사건을 살펴 보며 여러 생각을 하게 됩니다. 개인적으로 IT를 하면서 느꼈던 조금 조금한 문제점들이 실제 사고로 이어 질떄 얼마나 큰 사회적 위기를 가져 올 수 있는지를 실 예를 듣고 보니 왠지 모를 이 위치에 대한 중압감이 느껴 집니다.
하지만, 오늘도 우리들은 이러한 재해를 최소화 하기 위해 구르고 있습니다. 또 하루를 굴러 봅시다!!!
^^v IT인 여러분 화이팅!!!!
Posted by akiss4u





