Scientia Conditorium

[혼공단] 혼자 공부하는 데이터 분석 / 혼공단 10기 - 3주차 본문

서평/IT-책

[혼공단] 혼자 공부하는 데이터 분석 / 혼공단 10기 - 3주차

크썸 2023. 7. 23. 01:03

[기본 미션]  p.182의 확인 문제 2번 풀고 인증하기

  • 데이터 정제 : 수집된데이터에서 잘못된 부분을 고치거나 제거하여 필요한 데이터를 준비하는 과정
    데이터가 올바르게 정제되지 못하면 분석된 결과를 왜곡시킬 수 있으며 잘못된 의사 결정을 초래하기도 함
  • 데이터 랭글링(데이터 먼징) : 데이터를 정제하는 과정과 분석 및 머신러닝에 적합한 형태로 데이터를 변환하는 과정
  • 원소별 비교 : 판다스의 데이터프레임과 인덱스를 하나의 값과 비교하면 데이터프레임과 인덱스에 있는 모든 원소와 비교. 비교한 결과는 True 또는 False로 이루어진 불리언 배열로 반환
  • 넘파이(Numpy) : 파이썬의 대표적인 다차원 배열. 판다스의 데이터프레임과 달리 한 종류의 데이터만 담을 수 있지만 매우 효율적이고 성능이 높음. 파이썬의 다른 과학 패키지와 호환성이 높으며 기본 데이터 구조로 널리 사용.

 

[선택 미션] p.219의 확인 문제 5번 풀고 인증하기

  • NaN : 판다스에서 누락된 값을 표시하는 기호. isna() 메서드를 사용하여 NaN의 여부를 확인하거나 notna() 메서드를 사용해 NaN이 아닌 값인지 확인할 수 있음.
  • 정규 표현식 : 문자열에서 패턴을 찾고 대체하기 위한 규칙의 모음. 정규 표현식을 사용하면 복잡한 패턴을 가진 문자열을 쉽게 검색할 수 있음.