예제코드는 아래의 깃허브에있음
GitHub - FVBros/Spark-The-Definitive-Guide: 한빛미디어에서 출간한 스파크 완벽 가이드 1판의 소스코드 저
한빛미디어에서 출간한 스파크 완벽 가이드 1판의 소스코드 저장소. Contribute to FVBros/Spark-The-Definitive-Guide development by creating an account on GitHub.
github.com
보다보니까 스칼라가 생각보다 생산적이고 직관적인 함수형언어 느낌이 나서 배워보고싶은 생각이 들었던 코드들이 많다(굳)
어플리케이션 예제
from __future__ import print_function
if __name__ == '__main__':
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.master("local") \
.appName("Word Count") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()
print(spark.range(5000).where("id > 500").selectExpr("sum(id)").collect())
로 구성해서 SparkSession객체 생성 후 -> 하나 생성해서 전달전달하는게 좋음
$SPARK_HOME/bin?spark-submit --master local pyspark_template/main.py
로 실행시켜볼 수 있음
스파크 어플리케이션 테스트
spark-submit은 사실 이 전 책에서 정리했어서 링크를 첨부합니다
[PySpark_#2] 파이썬을 활용한 스파크 프로그래밍, (2장/8장) - 박홍 데이터베이스
Summary 챕터2에서는 OS별 스파크 설치와 언어별 실행 스크립트를 설명함.AWS의 EC2와 EMR 인스턴스에 띄워보는등 on-premise와 cloud모두 설명 Keywords & Terms EMR(Elastic Map-Reduce) YARN(Yet Another Resource Negotiator)
devhyung.github.io
어플리케이션 속성
16.5.2인 406p
부터 sparkconf에서 설정해볼만한 속성값들이 가지는 의미랑 기본값들을 알려줌
참조하면 좋아보입니다.
다음 포스팅
[PySpark] 스파크 완벽 가이드 - 17장 스파크 배포 환경
스파크 클러스터 환경On-PremiseCloud이렇게 두개로 나눔자체 데이터 센터를 운영하는 조직에선 온프레미즈가 좋고, 그 밖의 모든 상황에서 트레이드오프가 존재하면 클라우스 쓰면 좋다.스파크는
parkhong-python.tistory.com
'스터디 > 책 모임' 카테고리의 다른 글
[PySpark] 스파크 완벽 가이드 - 5장 구조적 API 기본 연산 (1) | 2024.05.02 |
---|---|
[PySpark] 스파크 완벽 가이드 - 4장 구조적 API 개요 (1) | 2024.05.02 |
[PySpark] 스파크 완벽 가이드 - 17장 스파크 배포 환경 (0) | 2024.04.24 |
[PySpark] 스파크 완벽 가이드 - 15장 클러스터에서 스파크 실행하기 (0) | 2024.04.24 |