본문 바로가기
DATA

Hadoop & Hbase & Hive 란?

by bzerome240 2022. 6. 7.

 

 

Hadoop 하둡


: 분산형 data infrastructure
- 서버 클러스터 내 복수의 노드들에 분산시키는 역할

 

Hadoop의 핵심 : MapReduce 구현체

MapReduce의 가장 중요한 혁신은 데이터셋을 나누고, 다수의 노드들에 대해 병렬적으로 실행하는 방식으로 통해 질의할 수 있는 능력입니다

 



아파치 HBase(Apache HBase)

 

: 하둡 플랫폼을 위한 공개 비관계형 분산 데이터베이스이다.

  • 구글의 빅테이블(BigTable)을 본보기로 삼았으며 자바로 쓰여졌다. 
  • 아파치 소프트웨어 재단의 아파치 하둡 프로젝트 일부로서 개발되었으며 하둡의 분산 파일 시스템인 HDFS위에서 동작을 한다. 
  • 대량의 흩어져 있는 데이터 저장을 위한 무정지 방법을 제공하는 구글의 빅테이블과 비슷한 기능을 한다.
  • HBase는 압축, 인메모리 처리, 초기 빅테이블에 제시되어 있는 Bloom 필터 기능을 제공한다.
  • HBase에 있는 테이블들은 하둡에서 동작하는 맵리듀스 작업을 위한 입출력을 제공하며 자바 API나 REST, Avro 또는 Thrift 게이트웨이를 통하여 접근할 수 있다.
  • HBase는 기존의 SQL 데이터베이스를 직접적으로 대체하지는 않지만 페이스북의 메시징 플랫폼과 같은 데이터를 많이 사용하는 웹사이트에서 사용된다.

 



Hbase VS RDBMS

RDBMS는 데이터의 종류를 제한하기 때문에, 엄청 많은 데이터는 빠르게 탐색하기 힘들다.

 


Hbase VS Hive

Hbase: NoSQL 데이터베이스
Hive: 대용량 데이터를 질의하고 결과를 생성하는 쿼리 엔진 / 하둡잡을 실행하는 DW 프레임워크
Hive는 SQL과 유사한 HiveQL문법으로 HDFS(Hadoop File System)에 저장된 데이터를 질의할 수 있도록 해준다.


 


 

참조

 

[BigData] 데이터 처리, Spark vs Hadoop vs Hive

공통점: 셋 다 bigdata처리를 지원하는 framework,솔루션 이다. 차이점: spark hadoop hive 역할 1.분산형 데이터 컬렉션 상부에서 동작하는 프로세싱 툴(메모리 기반) 1. 분산형 data infrastructure 2. 대량의..

spidyweb.tistory.com

 

Apache Hadoop의 간단 정리

Apache Hadoop이란 무엇인가? Apache Hadoop은 빅 데이터 산업 발전의 원동력이 되어왔습니다. Hive나 Pig같은 관련된 기술들에 대해서도 종종 들어보셨을 것입니다. 하지만 이것이 무엇이고, 왜 여러분들

mksung.wordpress.com

 

아파치 HBase - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전.

ko.wikipedia.org

 

728x90
반응형

댓글