Hadoop 하둡
: 분산형 data infrastructure
- 서버 클러스터 내 복수의 노드들에 분산시키는 역할
Hadoop의 핵심 : MapReduce 구현체
MapReduce의 가장 중요한 혁신은 데이터셋을 나누고, 다수의 노드들에 대해 병렬적으로 실행하는 방식으로 통해 질의할 수 있는 능력입니다
아파치 HBase(Apache HBase)
: 하둡 플랫폼을 위한 공개 비관계형 분산 데이터베이스이다.
- 구글의 빅테이블(BigTable)을 본보기로 삼았으며 자바로 쓰여졌다.
- 아파치 소프트웨어 재단의 아파치 하둡 프로젝트 일부로서 개발되었으며 하둡의 분산 파일 시스템인 HDFS위에서 동작을 한다.
- 대량의 흩어져 있는 데이터 저장을 위한 무정지 방법을 제공하는 구글의 빅테이블과 비슷한 기능을 한다.
- HBase는 압축, 인메모리 처리, 초기 빅테이블에 제시되어 있는 Bloom 필터 기능을 제공한다.
- HBase에 있는 테이블들은 하둡에서 동작하는 맵리듀스 작업을 위한 입출력을 제공하며 자바 API나 REST, Avro 또는 Thrift 게이트웨이를 통하여 접근할 수 있다.
- HBase는 기존의 SQL 데이터베이스를 직접적으로 대체하지는 않지만 페이스북의 메시징 플랫폼과 같은 데이터를 많이 사용하는 웹사이트에서 사용된다.
Hbase VS RDBMS
RDBMS는 데이터의 종류를 제한하기 때문에, 엄청 많은 데이터는 빠르게 탐색하기 힘들다.
Hbase VS Hive
Hbase: NoSQL 데이터베이스
Hive: 대용량 데이터를 질의하고 결과를 생성하는 쿼리 엔진 / 하둡잡을 실행하는 DW 프레임워크
Hive는 SQL과 유사한 HiveQL문법으로 HDFS(Hadoop File System)에 저장된 데이터를 질의할 수 있도록 해준다.
참조
728x90
반응형
'DATA' 카테고리의 다른 글
MongoDB란? windows 설치하기 / Studio 3T, Compass 사용하기 (0) | 2022.12.24 |
---|---|
[Fastcampus 데이터 엔지니어링] 데이터 엔지니어는 어떤 언어를 배워야 할까? (0) | 2022.12.03 |
[올윈에듀] 인공지능 기술과 산업별 실무적용 기법 (0) | 2022.10.26 |
SEO 검색 최적화 하는 방법 (0) | 2022.06.24 |
Data 종류별 정리 (0) | 2022.06.12 |
댓글