Kaggle 미니 개인 프로젝트 퀘스트 로드맵
학습 목표
관심있는 Kaggle 데이터셋을 선정하고, SQL 문법을 활용하여 데이터의 특징을 분석하며 새로운 칼럼을 생성해보고, 데이터 리터러시 기반의 새로운 가치를 창출하기
최종 제출 필수 항목
1.
선택 데이터셋 및 도메인: Kaggle 데이터셋 링크 및 해당 도메인(주제) 선택 이유
2.
SQL 기반 데이터 특징 최종 5개 소개
3.
새로운 칼럼 최소 1개 이상 생성 (필수)
•
새롭게 생성한 칼럼의 이름, 생성 방법 (SQL 문법 포함), 그리고 새 칼럼이 데이터에 부여하는 의미(가치) 설명
•
수치형 칼럼을 그룹화 하거나, 기존의 칼럼들을 덧셈/나눗셈하여 새로운 칼럼 생성 및 설명 (ex) 품질 등급(1~2 ‘하’, 3 ‘중’, 4~5 ‘상’) , 밀도(무게/부피)
4.
가설 설정: 특징 5가지와 새로 만든 칼럼을 기반으로 세운 심화 분석 가설 1가지 이상 설정
5.
추가 분석 계획: 향후 데이터 분석 스킬을 더 배운다면 (통계, 시각화, 라이브러리 등) 이 데이터셋에 어떤 데이터 분석을 적용해보고 싶은지 설명
Kaggle 미니 프로젝트 로드맵
데이터 선정
목표
Kaggle에서 관심 있는 제조업/품질 분야 키워드를 활용하여 관심 분야 데이터를 최종 선정
1.
키워드 기반 데이터셋을 검색해주세요!
a.
2회차 세션에서 등장한 키워드 활용 ( ex) defects, smart factory, quality , semiconductor
b.
kaggle 데이터셋의 code 탭에서 해당 데이터를 분석한 사람들의 노트북을 참조하여 분석 방향성을 정립
c.
데이터셋 링크와 선택이유를 정리
데이터 기반 특징 분석
목표
최대한 다양한 방향성을 적용하여 데이터의 특징을 다수 추출
1.
SQL 기반 10가지 특징 분석
•
활용 문법: SELECT, FROM, WHERE, COUNT, MIN, MAX, GROUP BY, 집계함수, HAVING, ORDER BY, LIMIT, DISTINCT 등
•
단순 통계량이나 아래의 항목을 포함하여 총 10가지 특징을 찾고, 그 결과를 쿼리와 함께 기록합니다.
◦
구조 및 범위: 전체 데이터 건수, 컬럼 이름, 데이터의 시간/공간적 범위.
◦
분포 및 결측치: 주요 카테고리별 건수, 수치형 변수의 최소/최대/평균, 결측치가 있는 컬럼과 그 개수.
2.
중요 특징 5가지 최종 선정:
•
분석한 10가지 특징 중, 데이터의 본질을 가장 잘 드러내며 가설 설정에 핵심적인 5가지 특징을 최종 선정하고 그 이유를 설명합니다. ( ex) 7월 결측치가 유독 많다, 칼럼은 content1,content2, content3로 이뤄져있다. 불량률이 가장 높은 공정프로세스 top 3 등등
새로운 칼럼 생성
목표
•
향후 데이터분석에서 가장 중요한 부분인 feature engineering을 예행 연습
•
raw 데이터셋으로부터 유용한 새로운 칼럼을 생성
1.
활용 문법: {CASE WHEN...THEN...ELSE END}, REPLACE, SUBSTRING, CONCAT 및 사칙연산.
2.
새로운 칼럼을 각각 1개 이상 생성하고 SQL 문법을 기록합니다.
•
유형 A. 조건부 그룹화: CASE 문을 사용하여 수치형 칼럼(예: pH 수치, 온도, 불량률)을 새로운 범주(예: '정상범위', '위험범위')로 나누는 칼럼을 생성합니다.
•
유형 B. 단순 계산/가공: 기존 칼럼들을 연산하거나 SUBSTRING 문법 등으로 가공하여 새로운 의미(예:'수익률', ‘밀도’, '측정+시간대' )를 가진 칼럼을 생성합니다.
가설 생성
목표
raw 데이터에서 얻은 특징 5개와 새로운 칼럼을 생성하여 확장된 데이터를 기반으로 심화 가설을 세우기
1.
심화 분석 가설 설정:
•
최종 선정된 5가지 특징과 새로 만든 칼럼을 토대로, 증명하고 싶은 가설 1가지를 설정합니다.
•
가설 예시: "새로 만든 '온도_그룹' 중 위험_범위일 때, 불량 건수(COUNT)의 평균이 정상 범위일 때보다 3배 이상 높을 것이다."
추가 분석계획 수립
목표
데이터셋을 가공하고, 가설 설정한 내용을 바탕으로 향후 본캠프에서 어떤 데이터분석을 적용해보고 싶은지 계획세우기
1.
추가 분석 계획 수립:
•
현재 SQL만으로는 부족한 통계적 검증, 시각화, 전문 라이브러리(머신러닝 등) 중 어떤 분야를 배워서 이 데이터셋에 적용하고 싶은지 구체적인 아이디어를 정리합니다.
2.
최종 발표 준비:
•
1~2분 발표 분량에 맞춰 분석의 < 최종 제출 필수 항목>의 핵심 내용을 바탕으로 발표를 준비합니다.