hadoop 4

Hadoop 클러스터 구축하기 part.3 - 멀티 노드 띄우고 파일 업로드하기

이번에는 지금까지 만든 마스터 노드 1개와 슬레이브 노드 2개로 구성된 환경에서 하둡 파일 시스템(HDFS)을 초기화하고 하둡 클라우드에 디렉토리를 생성하여 파일을 업로드하는 과정을 살펴본다. 1. 초기화 및 네임노드 포맷하둡을 재구동하기 전, 이전 실행 기록이 남아 충돌하는 것을 막기 위해 임시 디렉토리(/usr/local/hadoop/tmp)를 비우는 작업을 선행한다. master와 모든 slave 노드에서 동일하게 진행한다.공통사항: 기존 tmp 폴더를 삭제 후 재생성하고, username에게 소유권 권한을 부여rm -rf /usr/local/hadoop/tmpmkdir /usr/local/hadoop/tmpchown username: -R /usr/local/hadoop/tmp [master]HD..

가상환경에서 Hadoop 클러스터 구축하기 part.1 - 호스트네임, 네트워크 설정

Vmware 등의 가상 환경에서 실습을 할 때는 마스터 노드로 구축한 가상머신을 복제(clone)해서 슬레이브(slave)노드로 만들면 간단하게 하둡 클러스터를 구축할 수 있다. 이 때 호스트네임과 네트워크 식별 정보(IP/MAC Address) 까지 복제가 되는데, 각각의 클론에서 네트워크 등의 설정은 손수 해줘야 한다. 하둡 클러스터가 정상적으로 작동하려면 각 노드가 고유한 이름과 IP를 가져야 하기 때문이다. 1. 가상머신 하드웨어 식별자(MAC 주소) 재설정가상머신을 복제하면 네트워크 카드의 물리적 주소인 MAC 주소까지 동일하게 복사될 수 있다. 이는 네트워크 충돌의 원인이 되므로 가장 먼저 변경해야 한다.VMware에서 해당 슬레이브 노드 (power off한 상태에서) 가상머신의 설정을 열..

[Linux] Hadoop 마스터 노드 구축하기 part.3 - 하둡 설치 및 환경 설정, 데몬 확인

SSH 서버 설치 키 설정이 끝났다면, 이제 하둡 설치 파일을 압축 해제하고 시스템 환경 변수 및 핵심 설정 파일들을 수정하여 마스터 노드 서비스를 실제로 가동할 차례다. 1. 하둡 설치 및 권한 설정cd ./Desktop# -C 옵션으로 특정 디렉터리(/usr/local/)에 tar.gz 압축 풀기tar xvfz hadoop-1.2.0.tar.gz -C /usr/local/ #디렉토리명을 hadoop 짧게 변경mv hadoop-1.2.0/ /usr/local/hadoop#hadoop 디렉토리와 그 하위의 모든 파일(-R)에 대해 모든 사용자에게 읽기, 쓰기, 실행 권한을 부여chmod 777 -R /usr/local/hadoop/ #hadoop 디렉토리의 소유자와 그룹을 root에서 [usernam..

분산 파일 시스템(DFS)의 개념과 하둡(Hadoop)의 원리

클라우드 환경에서 대용량 데이터를 저장하는 핵심 기술인 분산 파일 시스템(DFS)과, 이를 구현한 하둡(Hadoop)에 대해 알아보자.분산 파일 시스템 (DFS) 이란?DFS의 핵심 아이디어는 "데이터를 쪼개서 분산 저장하고, 사용자 가까이에서 빠르게 처리하는 것"이라 할 수 있다.DFS(Distributed File System)는 대용량 데이터를 네트워크로 연결된 여러 컴퓨터(노드)에 분산하여 저장하는 시스템 아키텍처를 말한다. 분산 저장 (Distribution): 하나의 컴퓨터에 다 들어가지 않는 거대한 데이터(Big Data)를 일정한 크기의 조각(Chunk)으로 잘라서 여러 서버에 흩뿌려 저장한다.복제 (Replication): 분산된 서버 중 하나가 고장 나더라도 데이터가 사라지지 않도록 복..