Scientia Conditorium

[혼공단] 혼자 공부하는 데이터 분석 / 혼공단 10기 - 4주차 본문

서평/IT-책

[혼공단] 혼자 공부하는 데이터 분석 / 혼공단 10기 - 4주차

크썸 2023. 7. 30. 18:34

[기본 미션]  p.297의 확인 문제 5번 풀고 인증하기

  • 맷플롯립(matplotlib) : 파이썬의 대표적은 그래프 패키지.
    산점도, 히스토그램, 상자 수염 그림을 비롯하여 막대 그래프, 선 그래프 등 많은 종류의 그래프를 지원하고 그래프의 구성 요소를 다양하게 제어할 수 있는 많은 옵션을 제공
  • 산점도 : 데이터를 2차원 평면 또는 3차원 공간에 점으로 표시하는 그래프
    차원의 계약으로 일반적으로 두 개 또는 세 개의 특성을 표현할 수 있지만, 점의 색깔을 달리하여 한 개의 특성을 더 표현할 수도 있음
  • 히스토그램 : 데이터를 일정 구간으로 나누어 구간에 속한 데이터 개수(도수)를 막대로 표현할 수 있는 그래프
    데이터가 어떤 부분에 집중되어 분포되어 있는지 잘 볼 수 있음
  • 상자 수염 그림 : 사분위수, 최솟값, 최댓값을 사용해 여러 특성의 분포를 비교할 수 있는 그래프.
    제1사분위수와 제3사분위수를 사용해 상자를 그리고, 상자의 IQR 거리의 1.5배 범위 안에서 가장 멀리 떨어진 데이터까지 수직선(수염)을 그려서 분포를 표현
  •  

[선택 미션]  Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 최빈값)의 개념을 정리하기

쉬운 이해를 위해 유튜브 지식한입의 '진짜 한국인 평균을 알아보자' 인용

https://youtu.be/wVGJmZaB6q0

  • 평균 : 보통 '산술 평균'을 의미하며 각각의 표본값들의 총합을 표본 갯수로 나눈 값
    대한민국 국민들의 전체 평균 소득은 2020년 기준 달에 320만.
    월급 받는 사람들의 월급 액수 총합을 사람들 수로 나눴을 때 나오는 값이라고 보면 됨.
    고소득자들이 평균을 끌어올리는 경향이 있기 때문에 중위 소득이라는 것을 같이 볼 필요가 있음
  • 중앙값 : 전체 데이터를 순서대로 늘어 놓았을 때 중앙에 위치한 값
    월급 받는 사람을 100명이라고 가정했을 때 50번째에 있는 사람.
    즉, 이 50번째 있는 사람이 버는 돈이 중위 소득으로 통계청 2021년 기준 자료 기준으로 264만원.
    이 정도 소득 주변에 분포되어있는 분들을 진짜 평범한 분들이라고 할 수 있음
  • 최솟값 : 전체 데이터들 중에서 가장 작은 값
    기업 규모별 일자리 비중에서 대기업은 16.6% 가장 낮음
    물론 여기에는 비정규직이나 생산직도 포
  • 최댓값 : 전체 데이터들 중에서 가장 큰 값
    기업 규모별 일자리 비중에서 중소기업은 62.1%로 가장 높음
    나머지 21.3%는 비영리기업. 2021년 기준 통계청 자
  • 분위수 : 데이터를 순서대로 늘어 놓았을 때 이를 균등한 간격으로 나누는 기준점
  • 분산 : 평균으로부터 데이터가 얼마나 퍼져있는지를 나타내는 통계
    데이터에서 평균을 뺀 값을 제곱하고 그것을 모두 더한 후 전체 수로 나누어서 구함
    즉, 차이값의 제곱의 평균.
  • 표준편차 : 분산에 제곱근을 취한 것으로 데이터들이 얼마나 퍼져있는지를 나타내는 통계
    제곱해서 값이 뻥튀기 된 분산을 제곱근해서 다시 원래 크기로 만들어준다.
  • 최빈값 : 데이터에서 가장 많이 등장하는 값
    2015년 최빈소득은 110만2018원이라고 한다. 2015년 최저임금 시급 5580원으로 월 209시간이면 월급 약 116민 6220원이 된다. 즉, 대부분의 사람들이 최저월급을 받는다는 뜻.
    2023년 기준 최저임금을 시급 9620원으로 월 209시간 기준 201만 580원이 됨.