분류 전체보기(81)
-
PySpark - SparkSQL Structured Streaming Kafka
저번글에서는 Kafka와 Spark를 연결하기 위한 준비작업을 진행했는데 이번에는 직접 Spark 코드를 이용하여 kafka와 연동을 해보도록 하겠다. 만약 이글이 처음이라면 아래 링크에서 준비를 마치고 다시 진행해보도록 한다. 링크 : https://todaycodeplus.tistory.com/27 PySpark - Kafka Structured Streaming 설정 Spark 환경 Spark 3.1 Docker를 활용한 환경 구성 특이사항 - Docker와 Jupyter Notebook으로 구성된 image를 다운받아 생성 PySpark 환경에서 새로운 무언가를 실행할때 항상 여러가지 확인할 것들이 생기는데.. todaycodeplus.tistory.com Spark sql에서 kafka와 연동하..
2021.07.13 -
PySpark - Kafka Structured Streaming 설정
Spark 환경 Spark 3.1 Docker를 활용한 환경 구성 특이사항 - Docker와 Jupyter Notebook으로 구성된 image를 다운받아 생성 PySpark 환경에서 새로운 무언가를 실행할때 항상 여러가지 확인할 것들이 생기는데 그중하나가 Spark Dir에 있는 jars 내부 jar파일들이다. kafka와 연동하기 위한 jar 파일은 maven에서 구할수 있다. 아래 두가지 파일을 구하여 jars 디렉토리에 넣어준다. kafka-clients-2.6.0.jar spark-sql-kafka-0-10_2.12-3.1.1.jar spark-token-provider-kafka-0-10_2.12-3.1.1.jar 내 환경에서는 cd /usr/local/spark/jars 로 이동하면 위 링크..
2021.07.13 -
Spark SQL - DataFrame Row 개수 구하기
저어어엉말 간단하게 단순한 명령어로 Row 개수를 구할 수 있다. Pandas Dataframe 에서는 size 함수를 이용하여 row 의 개수를 받아 올 수 있지만, spark sql dataframe에는 size 함수가 없다고 나온다. 대신에, count() 를 사용하면 row의 개수를 받아올 수 있다. df.count()
2021.07.13 -
Azure Blob Storage - Python으로 Blob 읽어오기
이전 글에서 blob 이름의 리스트를 확보했다면 이번에는 내가 필요한 Blob의 내용을 한번 열어보는 코드를 작성해 봅시다. 이전 글에서 라이브러리 설치는 마쳤으니 바로 시작해보고 만약 이글을 처음본다면 .. 링크 : https://todaycodeplus.tistory.com/24 Azure BlobStorage - blob List 불러오기 Azure에서 사용하는 Azure BlobStorage 내부에 계정(Account)를 생성하고 그 내부에 데이터 혹은 여러가지 파일을 담기위한 Container를 생성하게 됩니다. 그 Container에 들어있는 파일을 Azure에서 Blob이라는.. todaycodeplus.tistory.com 자 바로 코드를 살펴 봅시다. from azure.storage.b..
2021.07.13 -
Azure BlobStorage - blob List 불러오기
Azure에서 사용하는 Azure BlobStorage 내부에 계정(Account)를 생성하고 그 내부에 데이터 혹은 여러가지 파일을 담기위한 Container를 생성하게 됩니다. 그 Container에 들어있는 파일을 Azure에서 Blob이라는 이름으로 부르고 있고 이에 내 Container안에 어떤 Blob이 들어있는지 확인하고자 할때 파이썬에서 BlockBlobStorage 를 이용하여 이 리스트를 불러오는 코드를 알아보고록 합니다. from azure.storage.blob.blockblobservice import BlockBlobService from tempfile import NamedTemporaryFile 먼저 설치가 조금 필요한데 우선 Blob 데이터를 불러오기 위한 라이브러리인 A..
2021.07.13 -
MSSQL - IDENTITY 값 초기화
우리가 테이블을 생성하고 IDENTITY을 지정하게 되는데 (ex. ID) 순차적으로 값이 증가해서 Index를 만들기는 편하지만 Data를 삭제하는경우 ID값의 증가량이 그대로 유지가 되어서 곤란한경우가 생기는데 이때 이를 해결하기 위해서 아래 쿼리로 해결 할 수있다. 1. 현재 ID값 확인 DBCC CHECKIDENT(, NORESEED) 2. DBCC CHECKIDENT(, RESEED, ) SEED No. 에 내가 시작하고 싶은 identity의 값을 입력하면 된다. 만약 0으로 초기화 하고싶다면 SEED No.에 0을 입력해준다. 3. 사용 예 (1) 이미 데이터가 90번까지 차있는 상태에서 10개 항목을 추가한다 (2) 방금 추가한 10개 항목을 지운다. (3) DBCC CHECKIDENT(,..
2021.07.12