Apache Spark(PySpark) Matrix Factorization 최적화하기 :: Kaden Sungbin Cho

ABOUT ME

-

Today: -

Yesterday: -

Total: -

Apache Spark(PySpark) Matrix Factorization 최적화하기

Data 2021. 5. 15. 15:55

이번 글에서는 데이터 엔지니어로 근무하며 진행한 MF 최적화 작업을 바탕으로, 최적화 시에 어떠한 관점으로 접근했는지와 관련 자료를 정리해보려 합니다.

Reference

[1] Advanced Apache Spark Training - Sameer Farooqui (Databricks)

[2] Tuning Apache Spark for Large-Scale Workloads

[3] SOS: Optimizing Shuffle I/O

[4] Deep Dive: Apache Spark Memory Management

[5] Matrix Computations and Optimization in Apache Spark

[6] Getting The Best Performance With PySpark

[7] Apache Spark @Scale: A 60 TB+ production use case

[8] Implementing Large-Scale Matrix Factorization on Apache Spark

[9] Optimizing Apache Spark SQL Joins

[10] Optimal Strategies for Large-Scale Batch ETL Jobs

[11] Tuning Spark

[12] Tuning Spark application tasks

[13] Troubleshooting and Tuning Spark for Heavy Workloads

[14] Why Your Spark Apps Are Slow Or Failing, Part II: Data Skew and Garbage Collection

[15] Tuning G1 GC for spark jobs

[16] How do I get a cartesian product of a huge dataset?

[17] https://www.slideshare.net/databricks/scaling-apache-spark-at-facebook

저작자표시 비영리 변경금지

'Data' 카테고리의 다른 글

Apache Spark(아파치 스파크): Dynamic Partition Pruning이란? (0)	2021.06.06
Spark SQL이란? (2)	2021.06.06
Apache Spark RDDs(Resilient Distributed Datasets)의 이점과 특징 (feat. DSM) (0)	2021.06.03
Apache Spark란? (0)	2021.06.01
[Hands On] 아파치 에어플로우 도커환경에서 핸즈온 - #1 기초 (Apache Airflow) (4)	2021.03.01
아파치 하이브란? (Apache Hive) (0)	2021.02.24
"데이터 경제를 위한 비지니스 모델"을 읽고 (feat. 한국 데이터 기업) (0)	2021.02.02
주니어 데이터 엔지니어의 공부방법 (6)	2021.01.27

관련글 관련글 더보기

인기포스트

ABOUT ME

Making something valuable

LINK

LinkedIn

ADMIN

티스토리툴바