avatar
dawn.py

[HDFS] HDFS와 WORM

hdfswormhadoop
6 days ago
·
2 min read

WORM(Write Once, Read Many Times)

  • Write-Once

    • 데이터를 저장할 때 한 번 쓰면 수정 불가.

    • 데이터를 변경하려면 전체 파일을 새로 작성해야함.

  • Read-Many-Times

    • 쓰여진 데이터는 여러 번 읽이에 적합하게 설계.

    • 대규모 데이터를 분석하거나 처리하기 위함.

HDFS의 설계철학

  • HDFS는 기본적으로 WORM 패턴에 최적화된 분산 파일 시스템.

  • HDFS에서 적용된 WORM패턴은 어느 정도의 반응속도는 아래와 같은 이유로 희생됨.

    • 데이터 수정의 비효율성

      • 데이터를 수정하지 않고 '쓰기'와 '읽기'만 집중, 실시간 데이터 수정이나 삽입 처리하는데 적합치 않음.

    • 대량 데이터 처리에 초점

      • HDFS는 읽기 성능을 최적화하기 위해 설계됨.

        • 대량 데이터 분산 저장과 복제본(Replica) 관리가 중요하다 보니 데이터 저장이나 처리의 초기 지연이 발생할 수 있음.

    • 배치 처리 기반

      • HDFS는 실시간 처리보다는 배치 처리에 적합

Write-Once 모델 선택의 이유

  • 데이터 무결성 보장

  • 읽기 성능 최적화

  • 단순화된 아키텍쳐


- 컬렉션 아티클






데이터 엔지니어 꿈나무입니다.