IT솔루션 by 올파

Hadoop 이란 본문

IT Infra/System

Hadoop 이란

올파트너 2013. 9. 9. 17:38

하둡(Hadoop) 이란


대용량 자료를 처리할 수 있는 대규모의 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈소스 분산처리 기술


Hadoop은 open 소스 이기 때문에 라이센스 비용이 필요지 않으며 또한 초기에 작은 클러스터를 
구성하여 운영 할 수도 있고 데이터의 증가에 따라 시스템 확장이 용이 하도록 설계가 되었기 때문에 일반
적인 상용 데이터 분석 솔루션에 비하여 초기 비용이 저렴 하다는 장점이 있습니다.


하둡(Hadoop) 구성


Hadoop 은 크게 2 가지 HDFS(Hadoop Distributed File System), Map/Reduce 로 구성


HDFS - 대용량의 데이터들을 효율적으로 저장이 가능하게하는 파일시스템, 


Map/Reduce - 대량의 자원을 다루는 분산/병렬 시스템의 효율적인 지원을 위한 목적으로 Google에서

만들어낸 프로그래밍 모델


What is Map and Reduce?
간단하게 설명하면, Map 은 비정형화된 input을 받아 Reduce 에서 쉽게 병렬처리할 수 있도록 정형화된 포맷의 intermediate k-v 쌍을 만들어 주는 모듈이라고 보면되고, Reduce 는 이미 정형화된 k-v 쌍을 대상으로 실제 병렬처리를 수행하는 모듈이라고 보면된다.



하둡은 안정적인 공유 저장소<HDFS(Hadoop Distributed File System)>와 분석시스템(MapReduce)를 제공한다.




가장 잘 정리되어 있는 사이트 참조:

http://simranjindal.com/2011/10/17/remote-attendees-reflections-sqlpass-2011-day-3-keynote-by-dr-david-dewitt/






참조사이트:

http://choong0121.tistory.com/191

https://sites.google.com/site/shkimhadoop/home/hadoop

http://blog.daum.net/openservice/92



Comments