본문 바로가기
반응형

DATA42

SEO 검색 최적화 하는 방법 용어 설명 색인 - Google에서는 알고 있는 모든 웹페이지를 색인에 저장합니다. - 각 페이지의 색인 항목은 해당 페이지의 콘텐츠 및 위치(URL)를 명시합니다. - Google에서 페이지를 가져와서 읽고 색인에 추가하면 색인이 생성됩니다. 예: Google에서 오늘 내 사이트의 페이지 색인을 생성했다. 크롤링 - 신규 또는 업데이트된 웹페이지를 찾는 프로세스입니다. - Google은 링크를 따라가거나, 사이트맵을 읽거나, 다른 여러 방법으로 URL을 찾아냅니다. 예: Google은 웹을 크롤링하여 새 페이지를 찾은 다음 필요한 경우 색인을 생성한다. 크롤러 - 웹에서 페이지를 크롤링(가져오기)한 다음 색인을 생성하는 자동 소프트웨어입니다. Googlebot - Google 크롤러의 일반적인 이름입니.. 2022. 6. 24.
Data 종류별 정리 RDB : 관계형 데이터 베이스 MySQL MSSQL MariaDB Oracle PostgreSQL Aurora NoSQL : RDB가 아닌 데이터 베이스 유동적인 데이터 모델링이 가능하다. 수평적 확장을 하는 형태이므로 대용량 데이터를 성능 이슈 없이 사용할 수 있다. NoSQL 저장형태 Key-Value형 DynamoDB Redis Document형 MongoDB Elasticsearch CouchDB Wide Column형 Cassandra HBase Graph형 Neo4j Neptune Realtime형 Firebase RethinkDB Data Warehouse : 여러 소스에 있는 데이터를 조합하여 분석하기 위한 데이터 저장소 : 분석용 데이터를 모아놓은 중앙 데이터베이스 Snowflake P.. 2022. 6. 12.
메시징 미들웨어 Kafka, RabbitMQ 메시지 큐 MQ : 메시지 지향 미들웨어(MOM)를 구현한 시스템 비동기 - Queue라는 임시저장소가 있기 때문에 나중에 처리 가능 탄력성 - consumer 서비스가 다운되더라도 메시지는 MQ에 남아 있다. 보장성 - MQ에 들어가면 모든 메시지는 consumer 서비스에 전달된다는 보장이 있다. producer (publisher): 정보를 제공하는 자 consumer (subscriber): 정보를 제공받아 사용하는 자 Queue: producer의 데이터를 임시 저장 및 consumer에 제공하는 곳 Kafka 대용량 분산 로그 트래픽을 실시간으로 처리 가능하다. 안정적으로 운영이 가능하다. kafka에서 발생한 모든 로그를 ES에 메시지 저장이 가능하다. 메시지의 생성, 소비, 관리를 독립시킨.. 2022. 6. 12.
Hadoop & Hbase & Hive 란? Hadoop 하둡 : 분산형 data infrastructure - 서버 클러스터 내 복수의 노드들에 분산시키는 역할 Hadoop의 핵심 : MapReduce 구현체 MapReduce의 가장 중요한 혁신은 데이터셋을 나누고, 다수의 노드들에 대해 병렬적으로 실행하는 방식으로 통해 질의할 수 있는 능력입니다 아파치 HBase(Apache HBase) : 하둡 플랫폼을 위한 공개 비관계형 분산 데이터베이스이다. 구글의 빅테이블(BigTable)을 본보기로 삼았으며 자바로 쓰여졌다. 아파치 소프트웨어 재단의 아파치 하둡 프로젝트 일부로서 개발되었으며 하둡의 분산 파일 시스템인 HDFS위에서 동작을 한다. 대량의 흩어져 있는 데이터 저장을 위한 무정지 방법을 제공하는 구글의 빅테이블과 비슷한 기능을 한다. HB.. 2022. 6. 7.
엘라스틱서치 Elasticsearch ES 란? ElasticSearch: 검색에 자주 쓰이는 검색 엔진  특징검색 엔진, 데이터 저장소, 분석 엔진으로 활용 가능하다.json 형식으로 저장되고 사용된다. (non schema)데이터 CRUD 작업은 REST API를 통해 수행한다.index를 여러 shard로 나누어 data를 여러 node로 분산하는 접근 방식을 이용한다.구조: 클러스터로 구성되며, 클러스터 안에 노드, 노드 안에 인덱스, 인덱스 안에 샤드, 샤드 안에 세그먼트로 구성된다. 검색속도가 빠른 이유: 역색인 자료 구조로 인해 빠르다. (* 역색인: 키워드를 통해 무너를 찾아내는 방식) 구성Physical 구성Cluster > Node (검색서버) > Index (테이블) > Shard (데이터 분류) > documents (데이터)Lo.. 2022. 4. 10.
아파치 카프카 Kafka 란? Apache Kafka: Distributed Event Streaming Platform 분산 이벤트 스트리밍 플랫폼: 데이터의 생산자와 소비자를 중개하는 메시징 시스템  Event Streaming: 데이터베이스, 센서, 애플리케이션 등의 이벤트 소스에서 이벤트 스트림의 형태로 실시간으로 데이터를 캡처하는 방식나중에 검색할 수 있도록 이벤트 스트림을 영구적으로 저장필요에 따라 이벤트 스트림을 다른 목적지 기술로 라우팅 가능ex) 증권 거래소, 은행 등에서 실시간 금융거래 처리ex) 여행 사업 모바일 애플리케이션에서의 고객 주문 수집 후 즉시 대응  kafka 특징다른 장비가 망가지더라도 잘 돌아간다. 일정 시간 다운돼도 데이터를 보관해 준다.Queue를 기반으로 데이터 순서가 보장된다처리 속도가 빠르.. 2022. 2. 5.
728x90
반응형