[DATA] Spark ETL
Spark는 대규모 데이터 처리를 위한 분산 컴퓨팅 시스템입니다. 원래 UC 버클리의 연구자 팀에 의해 개발되었으며, Hadoop의 MapReduce보다 빠르고 유연한 데이터 처리 기능을 제공합니다. Spark는 메모리 내에서 데이터를 처리하기 때문에, 디스크 기반의 처리보다 훨씬 빠른 성능을 자랑합니다. 또한, 다양한 언어(Scala, Java, Python, R)를 지원하여 개발자들이 쉽게 접근할 수 있도록 하고 있습니다.### Spark로 ETL을 해야 하는 이유Python이나 Pandas, Polars와 같은 도구들도 ETL 작업에 많이 사용되지만, Spark는 대규모 데이터 처리에 최적화되어 있습니다. 특히, 데이터의 양이 많아질수록 Spark의 성능이 더욱 두드러집니다. Spark는 클러스터 ..