Spark 4

Spark - Apache Spark란..

1. Apache Spark란.. Apache Spark는 오픈소스이며, 범용적인 목적을 지닌 분산 클러스터 컴퓨팅 프레임워크으로서 Fault Tolerance & Data Parallelism을 가지고 클러스터들을 프로그래밍할 수 있게 도와준다. Apache Spark에서는 RDD, Data Frame, Data Set의 3가지 API를 제공하는데, 이러한 데이터를 바탕으로 In-memory 연산을 가능하도록 하여 디스크 기반의 Hadoop에 비해 성능을 약 100배 정도 끌어올렸다. 다만. 성능을 재대로 활용하기 위해서는 노력이 필요.. 2. Spark의 구조 스파크는 스파크를 보조하는 YARN 그리고 HDFS와 다양한 API들로 구성되어 다양한 연산처리를 할 수 있도록 구성되어 있다. 아래 그림을 ..

Spark 2021.07.21

Spark - Docker로 Spark Cluster + Jupyterlab 구성

빅데이터를 공부하고 이쪽으로 직업을 가지길 원한다면 한번쯤 들어봤을 Spark를 Docker를 이용하여 쉽고 빠르게 구성해 보도록 하겠다. 만약 Spark에 대해서 알지 못하는 분이라면 아래 링크를 통해 가볍게 Spark가 무엇인지 알아보고 시작하자. Apache Spark 란.. 설치할 Spark와 Jupyterlab의 버전은 아래와 같다. Spark : 3.1.1 Simulated HDFS : 3.2 Jupyterlab : 2.1.5 자 시작하기 앞서 이들을 구성하는 구성도를 한번 살펴 보자. 1. Spark 구성도 먼저 Spark Master를 생성해 주고 이를 Localhost에 8080 Port에 얹어 준다. 그 다음 두개의 Worker를 구성하여 각각 8081 / 8082 Port에 얹어 준다..

Spark 2021.07.21

PySpark - Kafka Structured Streaming 설정

Spark 환경 Spark 3.1 Docker를 활용한 환경 구성 특이사항 - Docker와 Jupyter Notebook으로 구성된 image를 다운받아 생성 PySpark 환경에서 새로운 무언가를 실행할때 항상 여러가지 확인할 것들이 생기는데 그중하나가 Spark Dir에 있는 jars 내부 jar파일들이다. kafka와 연동하기 위한 jar 파일은 maven에서 구할수 있다. 아래 두가지 파일을 구하여 jars 디렉토리에 넣어준다. kafka-clients-2.6.0.jar spark-sql-kafka-0-10_2.12-3.1.1.jar spark-token-provider-kafka-0-10_2.12-3.1.1.jar 내 환경에서는 cd /usr/local/spark/jars 로 이동하면 위 링크..

Spark 2021.07.13