Hadoop MapReduce 이해하기 (실습 포함)
Hadoop MapReduce는 분산 데이터 처리를 위한 프로그래밍 모델이자 처리 기술입니다. key, value 형태의 자료구조를 기반으로 데이터를 처리하는 메커니즘를 가지는데요. MapReduce의 대략적인 모습은…
Hadoop MapReduce는 분산 데이터 처리를 위한 프로그래밍 모델이자 처리 기술입니다. key, value 형태의 자료구조를 기반으로 데이터를 처리하는 메커니즘를 가지는데요. MapReduce의 대략적인 모습은…
“Hadoop”은 분산 파일 (HDFS) + 분산 처리 프로그래밍 모델 (MapReduce)을 제공해줍니다. 데이터를 미리 HDFS 형태로 분산해서 저장시킨 다음 MapReduce를 이용해서 분산처리하는 것이죠
“HDFS 시작하기” 입니다. 도커 컨테이너를 이용하여 단일 시스템이지만 분산 시스템이라고 가정하고 HDFS 명령어들을 테스트 할 수 있었습니다.해당 포스트는 KMOOC 빅데이터 프레임워크 강의 내용을 기반으로 정리한 글 입니다.
HDFS (Hadoop 분산 파일 시스템)는 Apache Hadoop 에코시스템의 초석으로, 컴퓨터 클러스터 전체에서 방대한 양의 데이터를 저장하고 관리하도록 설계되었습니다. HDFS의 아키텍처는 안정성, 확장성 및 효율적인 데이터 처리를 보장하므로 빅 데이터 애플리케이션에 널리 사용됩니다.
분산 파일 시스템 (DFS)은 네트워크 내의 여러 컴퓨터(노드)에 걸쳐 파일을 관리하고 구성하는 파일 시스템 유형입니다. 이는 스토리지에 대한 통합 보기를 제공하므로 데이터가 여러 시스템에 물리적으로 분산되어 있더라도
“Flume 데이터 수집” 을 어떻게 하는지 실습 내용을 간단히 정리해보았습니다. 본 내용은 KMOOC에서 김윤기 – 빅데이터 프레임워크 강의를 정리한 내용 입니다.
WSL2 Docker 설정법 : Windows PowerShell에서는 docker가 실행이 되는데 WSL에서는 docker가 작동 안되는 경우가 있습니다. 또한 Window와 WSL2 사이 도커간 연동이 안되는 경우도 있습니다.
Docker는 개발자가 다양한 환경에서 일관되게 실행할 수 있는 경량의 휴대용 컨테이너 내에서 애플리케이션 배포를 자동화할 수 있도록 지원하는 플랫폼입니다. 다양한 개발 환경이나 데이터 파이프라인 환경 구축 등 여러 환경을 구성할 수 있도록 도와주는데요. Windows docker 를 생각 없이 next만 눌러서 설치하면…
“CMD, PowerShell, Windows Terminal 차이” 가 궁금하여 정리해보았습니다.
cmd, PowerShell, 그리고 Windows Terminal은 모두 다른 프로그램이더라고요.
Flume 개념 : Apache Flume는 대규모 로그 데이터를 효율적으로 수집, 집계, 이동시키기 위한 분산 시스템입니다. 다양한 곳에 위치한 서버에서 데이터를 취해 데이터의 플로우를 구성하여 데이터를 통합하여 목적지로 전달해줍니다.