스파크 클러스터 환경
- On-Premise
- Cloud
이렇게 두개로 나눔
자체 데이터 센터를 운영하는 조직에선 온프레미즈가 좋고, 그 밖의 모든 상황에서 트레이드오프가 존재하면 클라우스 쓰면 좋다.
스파크는 하둡의 HDFS같은 분산 파일 시스템과 아파치 카산드라 처럼 k-v 저장소 가장 많이 사용함. 그리고 데이터를 수집하는 용도로 Kafka처럼 streaming message bus system dmf tkdydgka.
https://www.databricks.com/try-databricks#account
(를 장려하나... 못 써봤다.. ㅠ_ㅠ)
그 외
사실 이 장에서는 뭘 말하고 싶은 건 지 모르겠다..
일괄적으로 나열을 해보려 한다.
- 클러스터 매니저(스탠드얼론, YARN, 메소스)
- spark-submit의 --master인수로 yarn을 지정해서 스파크잡을 실행할 수 있음
- 보안 관련 설정(인증, TLS, SSL)
- 클러스터 네트워크 설정(Proxy)
- 스케쥴링(fair scheduler)
- 동적할당(coarse-grained 모드, dynamicAllocation.enabled)
'스터디 > 책 모임' 카테고리의 다른 글
[PySpark] 스파크 완벽 가이드 - 5장 구조적 API 기본 연산 (1) | 2024.05.02 |
---|---|
[PySpark] 스파크 완벽 가이드 - 4장 구조적 API 개요 (1) | 2024.05.02 |
[PySpark] 스파크 완벽 가이드 - 16장 스파크 어플리케이션 개발하기 (0) | 2024.04.24 |
[PySpark] 스파크 완벽 가이드 - 15장 클러스터에서 스파크 실행하기 (0) | 2024.04.24 |