본문 바로가기
컴퓨터쟁이/Python

pySpark 란?

by 빙글빙글이 2021. 5. 26.
728x90
반응형

Apache Spark는 대규모의 데이터를 처리할 수 있는 기능을 제공하는 빅데이터 처리용 플랫폼이다. 

SQL, 기계학습, 딥러닝 및 그래프 처리를 위한 모델이 내장된 빅데이터 처리용 데이터 분석 엔진을 말한다. 

 

pySpark는 빠른 데이터 처리를 위해 Spark와 Python 간의 인터페이스를 만들기 위해 출시 되었다. 

 

pySpark는 Spark용 Python API를 말한다. 

 

pySpark는 일관된 방식으로 여러 서버에서 실행할 수 있는 범용 분산 계산 엔진으로 분산 데이터 세트를 읽고 

Spark 내에서 실행하도록 작성한 코드를 기반으로 해당 데이터를 처리할 수 있게 합니다. 

 

 

 

스파크에 대한 설명 참고

https://wikidocs.net/16565

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

 

pyspark 설명 참고

https://ichi.pro/ko/pysparke-daehan-wanjeonhan-sogae-137537062841545

 

PySpark에 대한 완전한 소개

Windows에 처음부터 PySpark 설치 Apache Spark Apache Spark는 방대한 규모의 데이터를 처리 할 수있는 기능을 제공하는 빅 데이터 처리 용 플랫폼입니다. SQL, 머신 러닝, 딥 러닝, 그래프 처리를위한 모델

ichi.pro

 

728x90
반응형