[HDFS] HDFS와 WORM
hdfswormhadoop
WORM(Write Once, Read Many Times)
Write-Once
데이터를 저장할 때 한 번 쓰면 수정 불가.
데이터를 변경하려면 전체 파일을 새로 작성해야함.
Read-Many-Times
쓰여진 데이터는 여러 번 읽이에 적합하게 설계.
대규모 데이터를 분석하거나 처리하기 위함.
HDFS의 설계철학
HDFS는 기본적으로 WORM 패턴에 최적화된 분산 파일 시스템.
HDFS에서 적용된 WORM패턴은 어느 정도의 반응속도는 아래와 같은 이유로 희생됨.
데이터 수정의 비효율성
데이터를 수정하지 않고 '쓰기'와 '읽기'만 집중, 실시간 데이터 수정이나 삽입 처리하는데 적합치 않음.
대량 데이터 처리에 초점
HDFS는 읽기 성능을 최적화하기 위해 설계됨.
대량 데이터 분산 저장과 복제본(Replica) 관리가 중요하다 보니 데이터 저장이나 처리의 초기 지연이 발생할 수 있음.
배치 처리 기반
HDFS는 실시간 처리보다는 배치 처리에 적합
Write-Once 모델 선택의 이유
데이터 무결성 보장
읽기 성능 최적화
단순화된 아키텍쳐