LLM으로 데이터 생성, 데이터 분석하기

데이터 생성 및 분석 프롬프트 공유
LLM데이터
avatar
2025.07.13
·
7 min read

데이터 생성하느라 1주가 다 지나갔어요 … 🥹

데이터 생성 작업을 맡은 팀원이 시간이 너무 오래 걸려 힘들어하는 모습을 보고, 제가 사용했던 데이터 생성 프롬프트를 공유하고자 합니다. 저는 Perplexity Pro실험실(Labs) 탭을 이용해 데이터를 생성했습니다. 물론 한 번의 프롬프트로 완벽한 데이터를 바로 생성하는 건 쉽지 않기 때문에 어느 정도 추가 편집이나 후처리는 필요할 수 있습니다.

무엇보다 중요한 건, 단순히 “컬럼만 나열하고 랜덤으로 생성해 달라” 고 하면 원하는 품질의 데이터가 나오지 않는다는 점입니다. 컬럼별로 어떤 값이, 어떤 형식으로 생성되면 좋은지 상세하게 지시해야 합니다. Perplexity Pro의 실험실 탭은 PRO 계정이더라도 사용 쿼리 수에 제한이 있지만, 개인적으로는 다른 LLM보다 출력 품질이 좋고, 데이터를 생성하는데 큰 시간이 소요되지않아 선택해 사용했습니다.

7258

결과는 아래와 같습니다. 한 번의 프롬프트로 10분정도 소요하여 완성된 결과입니다. 주소는 실제로 존재하는 주소이지만, 위도와 경도가 약간씩 맞지 않는 부분이 있습니다. 전체 데이터를 새로 생성하기보다는 해당 부분만 따로 생성하거나 별도로 검증해서 수정하는 방식이 더 효율적일 수 있습니다.

7259

또, 더 많은 데이터를 생성하고 싶다면 데이터 일부를 샘플로 첨부한 뒤, 이어서 생성할 수 있도록 프롬프트를 약간 수정해 재사용하는 방법도 좋다고 생각합니다. 예를 들어 추가 데이터를 요청할 때는 아래와 같이 작성할 수 있습니다.

너는 훌륭한 데이터 생성기야.

1. 데이터를 읽을 때 df = pd.read_csv('파일명.csv', encoding='utf-8')로 utf-8을 넣어서 읽어줘.
2. created_at은 2025-06-10~2025-06-22 여러 날짜로 변경해줘.
3. 각 created_at으로부터 5일~20일 후로 랜덤한 간격으로 deadline을 매칭해줘.
	3-1. 6월 22일 기준으로 deadline이 아직 안 지난 것은 Status를 OPEN으로 만들어줘.
	3-2. 6월 22일 기준으로 deadline이 넘어가면 status를 CLOSED로 변경해줘. CLOSED는 80개로 해줘.
	3-3. deadline이 6월 22일~6월 25일이면 status를 CLOSING_SOON으로 해줘.
	3-4. COMPLETED는 OPEN에서 20%를 랜덤으로 COMPLETED로 변경해줘.
4. updated_at은 created_at과 똑같이 만들어줘.
5. 다른 컬럼 값들은 반드시 그대로 놔둬줘.
6. 반드시 문자열은 한글로 작성해줘.
7. 출력형식은 csv야.

너는 반드시 위의 조건들을 모두 지켜야해.

데이터 분석 해달라고 했는데 이상한 코드만 짜요 😠

저는 비즈니스를 위한 EDA 작업이 개인적으로는 크게 취향이 아니어서, 이번에는 LLM을 활용해 운영자 대시보드를 위한 EDA를 진행했습니다. 어떻게 프롬프트를 작성하고 활용했는지 공유하고자 합니다.

일단, 데이터만 넣어두고 “분석해 달라”고 하면 원하는 수준으로 제대로 분석하지 못합니다. 분석 목적과 구체적인 내용을 꼭 함께 입력해야 합니다. 저는 먼저 ChatGPT에게 제가 개발하고 있는 서비스에 대해서 설명하고, 운영자 대시보드를 만들건데 어떤 항목이 들어가야 하는지 알려달라고 했습니다. 그러면 필요한 지표들을 잘 추천해 줍니다.

그중에서 저는 리더 활동 통계 파트를 맡아 분석을 진행했습니다. 실제 데이터 분석은 Genspark를 사용했는데, 사실 Genspark의 슈퍼 에이전트를 한번 써보고 싶어서 선택했습니다. 한글 폰트 설정에서 오류가 발생하긴 했지만, 제 코랩 환경에서 따로 폰트를 설정하고 코드를 복사해 사용하니 나머지 부분은 문제없이 잘 작동했습니다. 오히려 너무 잘해 줘서 감탄했습니다. 데이터 분석도 Genspark가 아니더라도 Claude도 좋은 것 같습니다. 아래의 프롬프트를 사용했습니다.

운영자 대시보드 설계를 위한 리더 활동 EDA를 진행해줘.

아래 항목들을 분석해 줘.

1. 최근 6개월간 리더 수의 변화
2. 리더 1회 이상 재참여율
3. 리더별 평균 개설 건수
4. 활동량 기준 리더 상위 10명 순위
5. 지역별 리더 분포 현황

데이터 분석 결과는 다음 코랩을 확인해주세요!







- 컬렉션 아티클