Chapter3. 스파크 기능 둘러보기
이 파트는 기존 [파이썬을 활용한 스파크 프로그래밍]책의 2장,4장부분과 많이 유사함
[PySpark_#2] 파이썬을 활용한 스파크 프로그래밍, (2장/8장) - 박홍 데이터베이스
Summary 챕터2에서는 OS별 스파크 설치와 언어별 실행 스크립트를 설명함.AWS의 EC2와 EMR 인스턴스에 띄워보는등 on-premise와 cloud모두 설명 Keywords & Terms EMR(Elastic Map-Reduce) YARN(Yet Another Resource Negotiator)
devhyung.github.io
운영용 애플리케이션 실행하기
./bin/spark-submit \
--master local \
./examples/src/main/python/pi.py 10
pi값을 특정 자릿수까지 계산하는 예제.
이런식으로 spark-submit
애플리케이션 코드를 클러스터에 전송해 실행시키는 역할을 함
Dataset: 타입 안정성을 제공하는 구조적 API
Dataset은 자바와 스칼라의 정적 데이터 타입에 맞는 코드, statically typed code를 지원하기 위해 고안된 스파크의 구조적 API임. 이건 dynamic typed 언어인 python R 에선 사용못함 (오?)
장점은
- 필요한 경우 선택적으로 사용가능함, 스파크는 처리 마치고 DF로 자동 변환해 반환하는데 왜 장점인지 이부분은 이해X
- collect 메서드나 take 메서드를 호출하면 ㅇㄹfmf rntjdgksms Row타입의 객체가 아닌 dataset에 매개변수로 지정한 타입의 객체를 반환함, 이건 안정성 보장됨.(오 이건 좋네)
구조적 스트리밍
spark 2.2+ 버전에서 안정화된 스트림 처리용 고수준 API임.
배치처리용 코드를 일부 수정하여 스트리밍 처리를 수행하고 값을 좀 더 빠르게 얻을 수 있는 장점이 있음.read
메서드 대신 readStream
메서드를 사용하는 게 가장 큰 차이
MLlib
- TrainValidationSplit, CrossValidator 다 있다 !
- StringIndexer라고 일반적인 트랜스포메이션을 자동화하는 트랜스포메이션 제공. (feature용이네)
- OneHotEncoder()로 임베딩가능
- 그다음 pipeline() 함
- fit()
저수준 API
스파크의 모든 기능은 RDD기반으로 만들어짐.
RDD는 Resilient Distributed Dataset
낮은 버전의 스파크 코드를 계속 사용해야하는 상황이 아니라면 RDD를 사용해 굳이 할 필욘 ㅌ
'스터디' 카테고리의 다른 글
[PySpark] 스파크 완벽 가이드 - 2장 스파크 간단히 살펴보기 (0) | 2024.04.18 |
---|---|
[PySpark] 스파크 완벽 가이드 - 1장 아파치 스파크 (0) | 2024.04.18 |