# 하둡이란? 대용량의 데이터를 분산처리 할 수 있는 자바 기반의 오픈 소스 프레임워크다. 하나의 대형 컴퓨터를 활용하여 데이터를 수집, 처리하는 대신, 하둡 서버가 설치된 다른 상용 하드웨어와 함
# 하둡이란? 대용량의 데이터를 분산처리 할 수 있는 자바 기반의 오픈 소스 프레임워크다. 하나의 대형 컴퓨터를 활용하여 데이터를 수집, 처리하는 대신, 하둡 서버가 설치된 다른 상용 하드웨어와 함께 클러스터링 하여 대규모의 데이터 세트를 병렬적으로 분석할 수 있다. 하둡의 활용성을 높여주기 위해 하둡 에코시스템 이란 이름으로 다양한 서브 프로젝트들이 존재하고 있다. # 개발자 엘라스틱 서치의 근간이 되는 아파치 루씬(Apache Lucene, 텍스트 검색 라이브러리)의 창시자인 더그 커팅이 개발하였다. # 이름의 기원 하둡 프로젝트의 창시자인 더그 커팅의 아이가 좋아하던 봉제 인형인 노란 코끼리의 이름을 따왔다고 한다.(그래서 마스코트도 노란 코끼리다) # 시작점 루씬 프로젝트의 일환으로 개발중이던 웹 검색 오픈 소스인 아파치 너치(Apache Nutch)의 하부 프로젝트로 시작됬다. # 무엇이 문제였는가? 2002년 너치 프로젝트를 진행할 당시 수집 및 검색 시스템은 금방 만들어졌지만, 현존하는 수십억 웹 페이지 데이터를 빠르게 처리할 방안은 찾지 못했다. 당시 데이터 저장 및 처리시 사용하던 RDB 기술로는 대량의 데이터를 감당하기 힘들었고 비정형 데이터 처리에 대한 솔루션도 필요했다. # 기연(feat. 구글) 2003년 구글에서 실제로 운영되는 GFS라는 구글 분산 파일시스템의 아키텍처 논문이 발표되어 이를 본 너치 개발자들이 NDFS(Nutch Distributed FileSystem)라는 분산파일시스템을 구현하여 매우 큰 파일에 대한 저장소 문제를 해결하게 되었다. 같은해 구글에서 맵리듀스를 소개하는 논문도 발표하여 분산된 데이터에 대한 처리 방법으로 사용하는데 도움을 주었다. 그리하여 2006년 NDFS와 맵리듀스를 너치 프로젝트에서 분리하고 하둡이란 이름으로 릴리즈 하게 되었다. # 기록 2008년 뉴욕 타임즈의 130년 분량의 신문기사 1100만 페이지를 PDF 로 변환하는 처리를 진행해보았는데 24시간이 좀 덜 걸렸다. 그때 당시 일반적으로 사용했던 서버 아키텍쳐로 구현했다면 약 14년이 소요되는 작업이었다. 그해 하둡은 테라바이트 데이터 정렬 세계 신기록을 세운 가장 빠른 시스템이 되었다. # 마무리 내가 오픈소스에 관심이 생기기 시작한건 하둡 때문이었다. 회사에서 v1 버전 하둡을 사용하는 프로젝트에 투입되었는데 이게 어떻게 동작하는건지 궁금하여 테스트 서버에 몇번을 재설치 해보고 코드도 까보곤 하였다. 그때부터 오픈소스에 대한 관심이 많아지기 시작했고 언젠가는 나도 이런 멋진 오픈소스를 만들어 보고싶다는 목표가 생겼다. 아직까지 이 목표를 실행하진 못했지만 가끔씩 아들이 좋아하는 장난감이나 인형이 있으면 이름이 뭐냐고 물어보곤 한다.