Scientia Conditorium
크썸
« 2026/02 »
| 일 |
월 |
화 |
수 |
목 |
금 |
토 |
| 1 |
2 |
3 |
4 |
5 |
6 |
7 |
| 8 |
9 |
10 |
11 |
12 |
13 |
14 |
| 15 |
16 |
17 |
18 |
19 |
20 |
21 |
| 22 |
23 |
24 |
25 |
26 |
27 |
28 |
관리 메뉴
Scientia Conditorium
[혼공단] 혼자 공부하는 데이터 분석 / 혼공단 10기 - 3주차 본문
서평/IT-책
[혼공단] 혼자 공부하는 데이터 분석 / 혼공단 10기 - 3주차
크썸
2023. 7. 23. 01:03
[기본 미션] p.182의 확인 문제 2번 풀고 인증하기
- 데이터 정제 : 수집된데이터에서 잘못된 부분을 고치거나 제거하여 필요한 데이터를 준비하는 과정
데이터가 올바르게 정제되지 못하면 분석된 결과를 왜곡시킬 수 있으며 잘못된 의사 결정을 초래하기도 함
- 데이터 랭글링(데이터 먼징) : 데이터를 정제하는 과정과 분석 및 머신러닝에 적합한 형태로 데이터를 변환하는 과정
- 원소별 비교 : 판다스의 데이터프레임과 인덱스를 하나의 값과 비교하면 데이터프레임과 인덱스에 있는 모든 원소와 비교. 비교한 결과는 True 또는 False로 이루어진 불리언 배열로 반환
- 넘파이(Numpy) : 파이썬의 대표적인 다차원 배열. 판다스의 데이터프레임과 달리 한 종류의 데이터만 담을 수 있지만 매우 효율적이고 성능이 높음. 파이썬의 다른 과학 패키지와 호환성이 높으며 기본 데이터 구조로 널리 사용.
[선택 미션] p.219의 확인 문제 5번 풀고 인증하기
- NaN : 판다스에서 누락된 값을 표시하는 기호. isna() 메서드를 사용하여 NaN의 여부를 확인하거나 notna() 메서드를 사용해 NaN이 아닌 값인지 확인할 수 있음.
- 정규 표현식 : 문자열에서 패턴을 찾고 대체하기 위한 규칙의 모음. 정규 표현식을 사용하면 복잡한 패턴을 가진 문자열을 쉽게 검색할 수 있음.