스파크 클러스터 환경On-PremiseCloud이렇게 두개로 나눔자체 데이터 센터를 운영하는 조직에선 온프레미즈가 좋고, 그 밖의 모든 상황에서 트레이드오프가 존재하면 클라우스 쓰면 좋다.스파크는 하둡의 HDFS같은 분산 파일 시스템과 아파치 카산드라 처럼 k-v 저장소 가장 많이 사용함. 그리고 데이터를 수집하는 용도로 Kafka처럼 streaming message bus system dmf tkdydgka.https://www.databricks.com/try-databricks#account(를 장려하나... 못 써봤다.. ㅠ_ㅠ)그 외사실 이 장에서는 뭘 말하고 싶은 건 지 모르겠다..일괄적으로 나열을 해보려 한다.클러스터 매니저(스탠드얼론, YARN, 메소스)spark-s..
전체 글
파이썬 개발자의 커닝페이퍼 cheat-sheet for python developer예제코드는 아래의 깃허브에있음 GitHub - FVBros/Spark-The-Definitive-Guide: 한빛미디어에서 출간한 스파크 완벽 가이드 1판의 소스코드 저한빛미디어에서 출간한 스파크 완벽 가이드 1판의 소스코드 저장소. Contribute to FVBros/Spark-The-Definitive-Guide development by creating an account on GitHub.github.com보다보니까 스칼라가 생각보다 생산적이고 직관적인 함수형언어 느낌이 나서 배워보고싶은 생각이 들었던 코드들이 많다(굳)어플리케이션 예제from __future__ import print_functionif __name__ == '__main__': from pyspa..
이 장에서 알아볼 주제는스파크의 아키텍처와 컴포넌트스파크 어플리케이션 생애주기파이프라이닝 + low-level 실행 속성스파크 어플리케이션 실행에 필요한거이전의 [파이썬을 활용한 스파크 프로그래밍] 책에서는 3장의 내용과 유사했다 [PySpark_#3] 파이썬을 활용한 스파크 프로그래밍, (3장/8장) - 박홍 데이터베이스 devhyung.github.io 스파크 어플리케이션의 아키텍처2장에서의 내용을 간단하게 복습 후 넘어감Driver운전자 역할, 물리적 머신의 프로세스며 클러스터에서 실행중인 어플리케이션의 상태를 유지Executor드라이버가 할당한 태스크를 수행하는 프로세스클러스터 매니저드라이버와 익스큐터를 허공에 띄울 수는 없으니 매니저가..