Apache Spark(2)
-
Spark - Apache Spark란..
1. Apache Spark란.. Apache Spark는 오픈소스이며, 범용적인 목적을 지닌 분산 클러스터 컴퓨팅 프레임워크으로서 Fault Tolerance & Data Parallelism을 가지고 클러스터들을 프로그래밍할 수 있게 도와준다. Apache Spark에서는 RDD, Data Frame, Data Set의 3가지 API를 제공하는데, 이러한 데이터를 바탕으로 In-memory 연산을 가능하도록 하여 디스크 기반의 Hadoop에 비해 성능을 약 100배 정도 끌어올렸다. 다만. 성능을 재대로 활용하기 위해서는 노력이 필요.. 2. Spark의 구조 스파크는 스파크를 보조하는 YARN 그리고 HDFS와 다양한 API들로 구성되어 다양한 연산처리를 할 수 있도록 구성되어 있다. 아래 그림을 ..
2021.07.21 -
Spark - Docker로 Spark Cluster + Jupyterlab 구성
빅데이터를 공부하고 이쪽으로 직업을 가지길 원한다면 한번쯤 들어봤을 Spark를 Docker를 이용하여 쉽고 빠르게 구성해 보도록 하겠다. 만약 Spark에 대해서 알지 못하는 분이라면 아래 링크를 통해 가볍게 Spark가 무엇인지 알아보고 시작하자. Apache Spark 란.. 설치할 Spark와 Jupyterlab의 버전은 아래와 같다. Spark : 3.1.1 Simulated HDFS : 3.2 Jupyterlab : 2.1.5 자 시작하기 앞서 이들을 구성하는 구성도를 한번 살펴 보자. 1. Spark 구성도 먼저 Spark Master를 생성해 주고 이를 Localhost에 8080 Port에 얹어 준다. 그 다음 두개의 Worker를 구성하여 각각 8081 / 8082 Port에 얹어 준다..
2021.07.21