하둡 2

가상환경에서 Hadoop 클러스터 구축하기 part.1 - 호스트네임, 네트워크 설정

Vmware 등의 가상 환경에서 실습을 할 때는 마스터 노드로 구축한 가상머신을 복제(clone)해서 슬레이브(slave)노드로 만들면 간단하게 하둡 클러스터를 구축할 수 있다. 이 때 호스트네임과 네트워크 식별 정보(IP/MAC Address) 까지 복제가 되는데, 각각의 클론에서 네트워크 등의 설정은 손수 해줘야 한다. 하둡 클러스터가 정상적으로 작동하려면 각 노드가 고유한 이름과 IP를 가져야 하기 때문이다. 1. 가상머신 하드웨어 식별자(MAC 주소) 재설정가상머신을 복제하면 네트워크 카드의 물리적 주소인 MAC 주소까지 동일하게 복사될 수 있다. 이는 네트워크 충돌의 원인이 되므로 가장 먼저 변경해야 한다.VMware에서 해당 슬레이브 노드 (power off한 상태에서) 가상머신의 설정을 열..

분산 파일 시스템(DFS)의 개념과 하둡(Hadoop)의 원리

클라우드 환경에서 대용량 데이터를 저장하는 핵심 기술인 분산 파일 시스템(DFS)과, 이를 구현한 하둡(Hadoop)에 대해 알아보자.분산 파일 시스템 (DFS) 이란?DFS의 핵심 아이디어는 "데이터를 쪼개서 분산 저장하고, 사용자 가까이에서 빠르게 처리하는 것"이라 할 수 있다.DFS(Distributed File System)는 대용량 데이터를 네트워크로 연결된 여러 컴퓨터(노드)에 분산하여 저장하는 시스템 아키텍처를 말한다. 분산 저장 (Distribution): 하나의 컴퓨터에 다 들어가지 않는 거대한 데이터(Big Data)를 일정한 크기의 조각(Chunk)으로 잘라서 여러 서버에 흩뿌려 저장한다.복제 (Replication): 분산된 서버 중 하나가 고장 나더라도 데이터가 사라지지 않도록 복..