[교내 경진대회] 국건영 데이터과학
본 조사의 목적은 국민의 건강수준, 건강행태, 식품 및 영양섭취 실태에 대한 국가 단위의 대표성과 신뢰성을 갖춘 통계를 산출하고, 이를 통해 국민건강증진종합계획의 목표 설정 및 평가, 건강증진 프로그램 개발 등 보건정책의 기초자료로 활용하는 것이다.
1. 대회 참가 학생 소개 및 역할
- 팀 이름 : 수원대 질병 관리
- 대회 참가 학생 소개 및 역할
학번 | 이름 | 역할 |
20516001 | 강서연 | 1. 데이터 시각화하기. 2. 모델링하기. 3. Grid Search를 이용하여 의사결정트리 하이퍼 파라미터 튜닝하기. |
20516008 | 김노정 | 1. [참고용] 조사자들의 전체 기본 정보 전처리 및 시각화 제작하기. 2. 데이터 전처리 및 시각화하기. 3. 최적의 모델 선택 및 시간 소요 그래프 제작 및 성능 점검하기. 4. 의사결정트리 시각화하기. |
20516019 | 김시은 | 1. 질병과 가구소득 관계 시각화하기. 2. 상관관계 분석하기. 3. k-means를 통해 영양 성분 클러스터링하기. 4. 평균값을 알아보고 pca 적용하기. |
20516053 | 성수빈 | 1. 데이터 시각화하기. 2. ppt 제작하기. |
2. 대회 준비 진행 및 문제 해결 방식
- 주제를 정하기 전에 전반적인 데이터의 경향을 알아보기 위하여 전체 칼럼에 대하여 전처리 및 시각화를 진행하였습니다. 칼럼은 환자의 기본 정보, 구체적인 검사, 식품 섭취 조사, 질병 유무로 크게 나눠서 진행하였습니다.
- 주제는 가구 소득수준에 따른 남녀 연령별 영양 섭취 질병 예측 모델로 정하였습니다.
- 해당 없음 (-1), 응답 안 함 또는 모름 (-2) 는 제거하였습니다.
- 주제에 맞게 구체적으로 시각화를 진행하다 보니, 데이터의 불균형이 확인되었습니다. 표준화와 PCA 그리고 클러스터링을 이용하여 해결하기로 하였습니다.
- Elbow curve를 이용하여 최적의 k를 찾았습니다. 그를 이용하여 필수 영양소 (탄, 단, 지)와 필수 영양소 이외의 영양소로 나누어서 각자 클러스터링을 진행하였습니다. (섭취량 적음, 섭취량 보통, 섭취량 많음으로 그룹화가 진행되었습니다.)
- 필요한 칼럼을 선택하고 모델링을 진행하였습니다. 하이퍼 파라미터 튜닝 전에도 꽤 높은 정확도를 보였습니다.
- 가장 좋은 모델을 선택한 뒤에 Grid Search를 이용하여 하이퍼 파라미터 튜닝을 진행한 뒤 해당 모델의 시각화를 진행하였습니다. 정확도가 훨씬 많이 올라갔습니다.
3. 나의 부족한 점
주제를 초반에 제대로 정하지 못하여 데이터 분석 부분이 조금 전반적으로 분석이 되어서 아쉬웠습니다. 다음에는 주제가 명확하게 정해지면 그 칼럼 위주로 깊고 꼼꼼하게 데이터 분석을 해야겠다는 생각이 들었습니다.
자세한 코드와 피피티는 깃허브에서 확인할 수 있습니다.
'데이터 분석 > 데이터 분석 (python)' 카테고리의 다른 글
[Dacon] 데이콘 Basic 여행 상품 분석시각화 경진대회 (1) | 2023.07.24 |
---|---|
[Dacon] 데이콘 Basic 쇼핑몰 지점별 매출액 분석시각화 경진대회 (0) | 2023.07.24 |