PySpark - Azure Event Hub Structured Streaming 설정

2021. 7. 5. 15:18Spark

  • Spark 환경 
  • Spark 3.1
  • Docker를 활용한 환경 구성 
  • 특이사항  - Docker와 Jupyter Notebook으로 구성된 image를 다운받아 생성

 

PySpark 환경에서 새로운 무언가를 실행할때 항상 여러가지 확인할 것들이 생기는데 그중하나가

Spark Dir에 있는 jars 내부 jar파일들이다. 

 

kafka로 Spark Sturctured Streaming을 생성하기 위해서 jar파일이 필요했는데 이번에도 마찬가지다..

Azure Event Hub를 사용하기 위해서 아래와 같은 파일 4개가 필요하다..

 

내 환경에서는 

cd /usr/local/spark/jar 로 이동하면 위 링크의 파일들을 wget명령어를 활용하여 모두 다운 받을수 있었다.

 

# 추가 

 

혹여 Azure Event Hub와 Azure Databricks를 활용한다고 해도 위 4개 파일을 설치해 주어야 한다. 

다만 Data Bricks는 내부에 설치를 할 수 있는 탭이 따로 있던걸로 기억한다. 

 

 

다음은 PySpark 코드를 알아보자.