DFS 분산 파일 시스템 개념

분산 파일 시스템 (DFS)은 네트워크 내의 여러 컴퓨터(노드)에 걸쳐 파일을 관리하고 구성하는 파일 시스템 유형입니다.

이는 스토리지에 대한 통합 보기를 제공하므로 데이터가 여러 시스템에 물리적으로 분산되어 있더라도 사용자와 애플리케이션이 단일 중앙 집중식 파일 시스템에 저장된 것처럼 파일에 액세스하고 관리할 수 있습니다.

해당 포스트는 KMOOC 빅데이터 프레임워크 강의 내용을 기반으로 정리한 글 입니다.

강좌: 빅데이터 프레임워크 (kmooc.kr)

분산 파일 시스템 등장 배경

비정형 데이터 또는 일부만 정형화된 데이터 같은 새로운 종류의 데이터 (SNS, log, Video, Audio) 들의 폭발적 성장으로, 이 데이터를 활용하여 효과적으로 이용할 필요성이 생겼습니다

막대한 양의 정보가 점차 기존 데이터 웨어하우스의 방식으로 저장하고 처리할 수 있는 한계를 넘어서게 된 것이죠.

분산 파일 시스템 주요 특징

확장성 Scalability

페타바이트 또는 엑사바이트 급의 데이터와 같이 매우 큰 데이터를 다룰 수 있도록 설계가 되어 있습니다.

데이터의 규모가 커짐에 따라 수평적 확장이 가능합니다.

수평적 확장을 하여도 성능 저하 없이 빠른 파일 액세스를 지원합니다.

내결함성 Fault Tolerance

스토리지나 서버 자체에 문제가 발생한다고 하더라도 이것으로부터 영향을 받지 않고 작업을 이어갈 수 있도록 설계되었습니다.

한 노드에 장애가 발생하더라도 복제본을 저장하는 다른 노드에서 데이터에 계속 액세스할 수 있기 때문이죠.

이러한 중복성은 데이터 손실 위험을 최소화하고 시스템 안정성을 보장합니다.

일관성 Data consistency

데이터가 분산 되어있기 때문에 시간이 지남에 따라 동일한 데이터가 서로 다른 값을 가질 가능성이 커지게 됩니다.

HDFS는 이러한 일관성 문제를 발생시키지 않는 것을 전제로 합니다.

대용량의 파일이 분산 저장되어 있다 하더라도 단 하나의 작업자만 데이터를 쓸 수 있습니다.

분산 파일 시스템의 종류

GFS

Google File system(GFS)은 Google이 인프라 전반에 걸쳐 방대한 양의 데이터를 처리하기 위해 개발했습니다. 이는 HDFS를 포함한 많은 최신 분산 파일 시스템에 영감을 주었는데요.

일반 사용 하드웨어를 이용하여 대량의 서버를 연결, 데이터에 대한 접근이 효율적이고 안정적이도록 설계하였습니다.

64MB의 고정된 Chunk로 파일을 쪼개어 분산 저장하였습니다.

HDFS

Hadoop File System(HDFS)은 컴퓨터 클러스터 전체에 대규모 데이터 세트를 저장하도록 설계되었습니다.

구글 파일 시스템을 모델으로 하여 동일하게 chunk 기반 파일 시스템을 가집니다.

Master 역할을 하는 NamedNode와 파일을 저장하는 기능을 하는 DataNode로 구성되어 있습니다.

분산 파일 시스템 부분에서 가장 많이 사용하여 사실상 표준이라고 보고 있습니다.

NameNode는 분산 파일시스템의 전반적인 내용을 알고 있기 때문에 클라이언트는 NameNode에 요청을 보내는 방식으로 동작합니다.

AFS

Andrew File System

미국의 카네기 멜론대가 대학에서 연구 교육 시스템을 통합할 목적으로 개발한 분산 파일 시스템 입니다.

동일한 하나의 파일 공유 공간을 제공하고 캐시를 사용하여 파일 사용 성능을 향상시켰습니다.

GlusterFS

Gluster File System은 Client/Server 구조로 대용량 분산 파일 시스템을 구성하였습니다.

여러 개의 스토리지 서버를 네트워크를 통해 하나의 디스크 풀로 묶어 Brick 이라는 논리적 공간에 파일을 저장합니다.

Hadoop과 같이 하나의 데이터를 쪼개서 저장하지는 않습니다.

참고한 글

The overview of the Hadoop Distributed File System (HDFS). | Download Scientific Diagram (researchgate.net)

https://docs.gluster.org/en/latest/Quick-Start-Guide/Architecture/#fuse)

Leave a Comment

목차