한경X토스뱅크 MLOps 과정 한달 회고

데이터분석, EDA의 시간
회고데이터분석크롤링SQL
avatar
2025.02.07
·
10 min read

Pandas를 끝내고, EDA(탐색적 데이터 분석)와 크롤링 그리고 SQL을 공부했다. 솔직히 데이터 분석은 내 취향이 아니다. 난 좀 더 엔지니어링적인 걸 좋아하는데 그래도 해야하니까 열심히 했다.

나는 캐글이나 데이콘에서 주어지는 깔끔한 데이터셋만 다루는 게 아니라 실제 애플리케이션이나 웹에서 데이터를 어떻게 가져올 수 있는지가 더 궁금했다. 예를 들어, 사용자 맞춤 추천 서비스를 만든다고 하면, 사용자 로그 데이터를 모아야하는데 어떻게 가져올 수 있을까? 데이터의 양이 너무 많다면 어떻게 효율적으로 수집하고 처리해야 할까? 이런 고민이 재밌고, 이게 바로 데이터 엔지니어링에 해당하는 부분이다. 선생님께서 주신 데이터 엔지니어링 노션 교재도 있는데 시간될 때 공부해봐야겠다.

3127

수업시간에 공부하고 실습한 내용은 깃허브에 기록하고있고, 더 깊이있게 공부해볼 내용은 블로그에 작성하려고 노력하고있다. 최근 작성한 내용은 카카오 API, 카카오 맵 기반의 맛집 리뷰 크롤링 실습을 하면서 잠깐 등장했던 비동기 통신과 동기 통신에 관한 내용이다. 해당 내용은 아래에서 확인할 수 있다.

비동기통신과 동기통신 feat. 크롤링
카카오맵 기반 맛집 리뷰 크롤링 실습을 해보다!
https://until.blog/@kirise/비동기통신과-동기통신-feat--크롤링-97uupn5z

Pandas까지 수업이 다 끝났을 때는 조별과제도 수행했다. 끝나고 갑자기 타이타닉 데이터셋을 가지고 EDA를 조별로 진행하라는 오더가 떨어졌다. 사적인 대화는 시간이 촉박해서 많이 못했지만, 같이 의논하면서 하니까 재밌었다. 그리고 또 다른 분을 알게돼서 기뻤다! 마음속으로는 모두와 즐겁게 대화를 했는데(?) 먼저 말을 걸기가 쉽지가 않다.. 내가 봤을 때는 나만 그런게 아닌 것 같다.. 나는 사실 I랑 E가 반반이긴한데 그냥 반반치킨이다.

타이타닉 EDA를 진행하면서 어려웠던 것은 코드를 작성하는 것이 아니였다. 오히려 가설을 세우고 검증을 하고 그래서 어떤 인사이트를 얻을 수 있는 지를 파악하는 것이었다. 그렇기 때문에 아쉬웠던 것은 왜 이 데이터를 분석하는가?에 대한 질문의 답을 먼저 파악하고 진행했어야했는데, 특별한 무엇인가를 찾으려고 그 답과 관련없는 이상한 가설을 세우고 검증한 부분이 있었다는 것이다.

3194

또 한 가지 이슈가 있었는데, S항구에서 탄 사람들의 사망률이 높은 이유가 3등급 탑승객이 많기 때문인지에 대한 논의였다. 초기 분석에서는 전체 항구 중 어떤 항구에서 3등급 탑승객 수가 얼마나 많은지를 비교했고, S항구에서 3등급 탑승객 수가 가장 많았기 때문에 사망률도 높다고 결론지었다. 하지만 이 방식은 단순히 'S항구에서 3등급 승객이 많다'는 사실만 반영했을 뿐, 실제 사망률이 높은 이유를 제대로 설명하지 못했다는 문제가 있었다.

새로운 분석에서는 접근 방식을 달리해서, 각 항구에서 탄 탑승객들을 전체로 놓고, Pclass별 생존 비율과 사망 비율을 비교했다. 그 결과, S항구에서 3등급 탑승객의 사망률이 가장 높았기 때문에 전체적인 사망 비율이 높게 나타난 것을 확인할 수 있었다.

이처럼 데이터를 분석할 때는 단순한 숫자 비교가 아니라 비율 분석이 중요하다는 점을 다시 한번 깨닫게 되었다.

3181

조별 과제가 끝난 후에도 위와 같이 더 깊이 있는 분석을 진행하고 피드백받으면서, 비율 분석에서 어떤 기준을 전체로 두느냐에 대한 고민을 많이 할 수 있었다. (위 사진의 마지막 질문에 대한 답이 궁금하다면 연락주세요)

3118

조별과제 중에 선생님들의 간식 박스 투척하는 시간도 있었다 ..! 선생님들 감사해요 🙌🏻

3119

다소 생생통통한 음식사진이다. 갑자기 음식사진을 올린 이유는...! 바로 풀스택반과 같이 먹은 점심식사 메뉴이기 때문이다. 활발한 커뮤니티 활동을 위해 학습 공유 채널을 만들어달라고 요청했었는데, 내가 처음으로 스터디를 모집할겸 회고를 올린 후로 몇일 지나지않아 같이 점심을 먹게되었다. 슬랙에는 이름만 나와있는데 그 이름을 기억해주는 사람이 있어서 감동을 먹었지만 티를 내지않았다. 대리님도 같이 식사하셨는데, 가끔 던지시는 농담이 너무 웃겼다... ㅋㅋ 대화를 할 수 있도록 질문도 많이 해주시고 진짜 웃겼다.. 상담은 대리님한테 가서 해야지! 풀스택 반 한 분과 그래도 얘기를 좀 했다. 스터디도 같이 하고싶었는데 아쉽게도 이미 스터디를 하고있기도 했고 듣고싶던 강의가 있어서 그걸 먼저 듣기위해 포기하기로 했다. 마주치면 인사해야지 👋🏻

3196

방금 스터디를 모집했다고 했는데, 해당 내용으로 스터디를 모집했다. 나는 주로 MLOps 강의를 듣고, 정처기 필기 시험을 준비할 예정이다.

3197

마지막 주차에는 SQL을 본격적으로 시작했다. SQL의 기본원리부터 실습까지 진행했다. SQL를 활용한 인구 데이터 분석 실습 숙제를 내주셔서 재밌게 풀었고, 피드백을 받고 정리한 내용이다.

한달 회고가 다 끝났다! 순식간에 한달이 지났다. 시간이 정말 빠른데 공부가 너무 재밌다. 아무 걱정안하고 원하는 공부를 할 수 있는 학생 때가 왜 행복한건지 알 것 같다. 앞으로도 힘내자고 !!







- 컬렉션 아티클