PySpark - Kafka Structured Streaming 설정

2021. 7. 13. 15:01Spark

Spark 환경 

  • Spark 3.1
  • Docker를 활용한 환경 구성 
  • 특이사항  - Docker와 Jupyter Notebook으로 구성된 image를 다운받아 생성

PySpark 환경에서 새로운 무언가를 실행할때 항상 여러가지 확인할 것들이 생기는데 그중하나가

Spark Dir에 있는 jars 내부 jar파일들이다. 

 

kafka와 연동하기 위한 jar 파일은 maven에서 구할수 있다. 아래 두가지 파일을 구하여 jars 디렉토리에 넣어준다.

  1. kafka-clients-2.6.0.jar
  2. spark-sql-kafka-0-10_2.12-3.1.1.jar
  3. spark-token-provider-kafka-0-10_2.12-3.1.1.jar

내 환경에서는

cd /usr/local/spark/jars 로 이동하면 위 링크의 파일들을 wget명령어를 활용하여 모두 다운 받을수 있었다.

 

이렇게 jar 파일을 넣는다면 설정 자체는 특별하게 더 해줄 것이 없다 

 

연결 코드는 다음글에서 알아보도록 하자.