Spark 이해하기 4. Spark Action

스파크 action

Apache Spark Action 은 RDD(Resilient Distributed Dataset)의 변환에 의해 정의된 전체 계산 계획의 실행을 트리거하는 작업입니다. action은 Spark에 계산을 수행하고 결과를 생성하도록 지시하여 Spark가 클러스터 노드에서 실행될 작업을 시작하도록 합니다. action의 예로는 RDD의 모든 데이터를 드라이버 프로그램으로 검색하는 ‘collect()’, RDD의 요소 수를 계산하는 ‘count()’ 등이 있습니다. Spark Action 함수 정리 Action Function Purpose Example Input … Read more

Hadoop의 HDFS 시작하기

“HDFS 시작하기” 입니다. 도커 컨테이너를 이용하여 단일 시스템이지만 분산 시스템이라고 가정하고 HDFS 명령어들을 테스트 할 수 있었습니다.해당 포스트는 KMOOC 빅데이터 프레임워크 강의 내용을 기반으로 정리한 글 입니다.

하둡 분산 파일 시스템 HDFS 이해하기

HDFS 이해하기

HDFS (Hadoop 분산 파일 시스템)는 Apache Hadoop 에코시스템의 초석으로, 컴퓨터 클러스터 전체에서 방대한 양의 데이터를 저장하고 관리하도록 설계되었습니다. HDFS의 아키텍처는 안정성, 확장성 및 효율적인 데이터 처리를 보장하므로 빅 데이터 애플리케이션에 널리 사용됩니다.

This website stores cookies on your computer. These cookies are used to provide a more personalized experience and to track your whereabouts around our website in compliance with the European General Data Protection Regulation. If you decide to to opt-out of any future tracking, a cookie will be setup in your browser to remember this choice for one year.

Accept or Deny