전체 글

파이썬 개발자의 커닝페이퍼 cheat-sheet for python developer
· 스터디
Chapter3. 스파크 기능 둘러보기 이 파트는 기존 [파이썬을 활용한 스파크 프로그래밍]책의 2장,4장부분과 많이 유사함 [PySpark_#2] 파이썬을 활용한 스파크 프로그래밍, (2장/8장) - 박홍 데이터베이스 Summary 챕터2에서는 OS별 스파크 설치와 언어별 실행 스크립트를 설명함.AWS의 EC2와 EMR 인스턴스에 띄워보는등 on-premise와 cloud모두 설명 Keywords & Terms EMR(Elastic Map-Reduce) YARN(Yet Another Resource Negotiator) devhyung.github.io 운영용 애플리케이션 실행하기 ./bin/spark-submit \ --master local \ ./examples/src/main/python/pi...
· 스터디
Chapter2. 스파크 간단히 살펴보기 1장은 스파크란 무엇인지 + 역사에대해서 이야기를 했습니다. 2장에서는 스파크를 가볍게 사용해보고 Dataframe, SQL, struced API를 사용해서 써본다고합니다. 스파크의 기본 아키텍쳐 이 파트는 [파이썬을 활용한 스파크 프로그래밍] 책의 3장과 같은 내용이였습니다. [PySpark_#3] 파이썬을 활용한 스파크 프로그래밍, (3장/8장) - 박홍 데이터베이스 devhyung.github.io 역시나 이 장도 다르게 말한 부분의 정리를 해볼까 합니다. 한 대의 컴퓨터로 수행하기 힘든 작업이 있잖아? 그러기 위해선 컴퓨터 클러스트(여러 컴퓨터 자원을 모아 하나의 컴퓨터처럼 사용)를 이용하여 해결하면 좋음 하지만 이 과정에서는 클러스터의 작업을 조율할 수..
· 스터디
앞으로 약 몇 주간 아래의 책을 리뷰해 보고자 합니다. 같이하는 팀원들 다들 화이팅입니다 ㅎㅎ 빅데이터와 스파크 간단히 살펴보기 (chapter 1~3) Chapter 1. 아파치 스파크란 예전 [파이썬을 활용한 스파크 프로그래밍] 책에 대해서 스터디를 했을 때의 같은 내용을 포스팅한 게 있어 링크를 첨부하고 이 책과의 다른 내용만 정리해 봤습니다. 스파크철학, 등장배경, 역사, 로컬환경에서의 실행 등은 아래의 링크에 정리되어 있습니다. [PySpark_#1] 파이썬을 활용한 스파크 프로그래밍, (1장/8장) - 박홍 데이터베이스 소개 Spark스터디에 참여할 수 있는 좋은 기회가 생겼다. 아래의 책을 여러 명이 읽어보고 정리하면서 서로의 생각을 공유하는 스터디 이며 그 첫 장을 여는 포스팅. 많이 부족..
개발자 박홍
박홍의 파이썬 커닝페이퍼