2부에서 살펴보는 건
- Dataset
- DataFrame
- Sql Table + View
기존 [파이썬을 활용한 스파크 프로그래밍] 책의 3장내용과 많이 흡사함
[PySpark_#3] 파이썬을 활용한 스파크 프로그래밍, (3장/8장) - 박홍 데이터베이스
devhyung.github.io
DataFrame
- 스파크에선 DataFrame과 Dataset이라는 두가지 컬렉션을 가지고 있음
- 스키마는 DataFrame의 컬럼명과 데이터 타입을 정의함
- 실행계획수립과 처리에 사용하는 자체 데이터 타입정보를 가지고있는 카탈리스트 엔진을 사용함 스파크는
- 비타입형 DataFrame VS 타입형 Dataset
- 스키마에 명시된 데이터 타입 일치 여부를 런타임에 확인함
Dataset
- JVM기반의 언어인 스칼라와 자바에서만 지원함.
- 스키마에 명시된 데이터 타입의 일치 여부를 컴파일 타임에 확인함
구조적 API 실행과정
- 코드 -> 논리적 실행 계획
- 스파크가 논리적 -> 물리적 실행계획 + 최적화 계획
- 클러스터에서 물리적 실행 계획(RDD 처리)를 실행
이 코드를 Catalyst Optimizer이 넘겨받아서 실행함
다음 글
[PySpark] 스파크 완벽 가이드 - 5장 구조적 API 기본 연산
5장에서는 DataFrame의 데이터를 다루는 기능을 소개함. 집계 윈도우 조인등의 내용은 7,8장간단한 코드 예제는 github 링크로 대체 Spark/Part2/Chapter5.ipynb at main · PingPingE/SparkContribute to PingPingE/Spark deve
parkhong-python.tistory.com
'스터디 > 책 모임' 카테고리의 다른 글
[PySpark] 스파크 완벽 가이드 - 5장 구조적 API 기본 연산 (1) | 2024.05.02 |
---|---|
[PySpark] 스파크 완벽 가이드 - 17장 스파크 배포 환경 (0) | 2024.04.24 |
[PySpark] 스파크 완벽 가이드 - 16장 스파크 어플리케이션 개발하기 (0) | 2024.04.24 |
[PySpark] 스파크 완벽 가이드 - 15장 클러스터에서 스파크 실행하기 (0) | 2024.04.24 |