IT Infra/System
Hadoop 이란
올파트너
2013. 9. 9. 17:38
하둡(Hadoop) 이란
대용량 자료를 처리할 수 있는 대규모의 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈소스 분산처리 기술
Hadoop은 open 소스 이기 때문에 라이센스 비용이 필요지 않으며 또한 초기에 작은 클러스터를
구성하여 운영 할 수도 있고 데이터의 증가에 따라 시스템 확장이 용이 하도록 설계가 되었기 때문에 일반
적인 상용 데이터 분석 솔루션에 비하여 초기 비용이 저렴 하다는 장점이 있습니다.
하둡(Hadoop) 구성
Hadoop 은 크게 2 가지 HDFS(Hadoop Distributed File System), Map/Reduce 로 구성
HDFS - 대용량의 데이터들을 효율적으로 저장이 가능하게하는 파일시스템,
Map/Reduce - 대량의 자원을 다루는 분산/병렬 시스템의 효율적인 지원을 위한 목적으로 Google에서
만들어낸 프로그래밍 모델What is Map and Reduce?
간단하게 설명하면, Map 은 비정형화된 input을 받아 Reduce 에서 쉽게 병렬처리할 수 있도록 정형화된 포맷의 intermediate k-v 쌍을 만들어 주는 모듈이라고 보면되고, Reduce 는 이미 정형화된 k-v 쌍을 대상으로 실제 병렬처리를 수행하는 모듈이라고 보면된다.
하둡은 안정적인 공유 저장소<HDFS(Hadoop Distributed File System)>와 분석시스템(MapReduce)를 제공한다.
가장 잘 정리되어 있는 사이트 참조:
참조사이트:
http://choong0121.tistory.com/191
https://sites.google.com/site/shkimhadoop/home/hadoop
http://blog.daum.net/openservice/92