본문 바로가기

AI/Python

Python #데이터 전처리

데이터 전처리란(Data preprocessing)?

- 무질서하게 수집된 데이터셋을 분석이 가능한 상태로 만드는 행위

- 특정 분석에 적합하게 데이터를 가공하는 행위

- 일상이나 업무상황에서 발생하는 데이터는 분석이나, 머신러닝, 딥러닝 등

  AI 학습에 적합하지 않은 경우가 많기 때문에 적합하게 가공하는 행위

 

데이터 분석 프로세스

 

 

1. 문제 정의

   데이터 분석 프로세스에서 가장 중요하고 어려운 단계. 데이터 분석을 진행하다가도 문제 자체가 제대로 설정되지

   않는다면 처음 단계로 되돌아오는 경우가 자주 발생하고, 의미없는 분석으로 시간과 재화만 낭비하기 쉽다.

   - 데이터 분석의 대상과 분석의 목적이 명확해야함

   - 정의된 문제를 해결하기 위한 구체적인 계획이 수립되야 함

   - 문제를 정의할 분야에 대한 전문적 지식이 필요함

   - 모든 사람들이 이해할 수 있도록 명료하고 구체적이어야 함

 

2. 데이터 수집

   분석에 필요한 데이터를 찾고 모으는 단계, 데이터 엔지니어의 역할이 중요.

   - 데이터 수집이 어려운 이유는 찾는 데이터가 존재하지 않거나, 너무 많기 때문.

   - 비용과 법적인 문제가 발생할 수 있으니 주의해야 함.

   - 주로 데이터 구매, 웹 크롤링, open datasets, 직접 환경을 설정해 수집하는 방법이 있다.

Open datasets
국내 : AI hub(http://www.aihub.or.kr/) , 공공 데이터 포털(http://www.data.go.kr/)
국외 : UCI Repository(https://archive.ics.uci.edu/ml/index.php), MNIST(http://yann.lecun.com/exdb/mnist/)
기타 : Fashion-MNIST(https://github.com/zalandoresearch/fashion-mnist) ,
        Open Images Dataset(https://opensource.google/projects/open-images-dataset) ,
        Kaggle(https://www.kaggle.com/)

 

3. 데이터 탐색 및 전처리

   데이터 전처리

   - 분석에 부적합한 구조, 누락된 항목, NA(결측값)존재 등으로 인해 전처리 과정이 필요

   - 노이즈 제거, 중복값 제거, 결측값 보정, 데이터 연계/통합, 데이터 구조변경, 데이터 벡터화, outlier detection,

     Feature Engineering 등이 있다.

   데이터 탐색

   - EDA(Exploratory Data Analysis)탐색적 데이터 분석, 상관관계, 분포확인, 인과관계 등이 있다.

 

4. 데이터 모델링 단계

  원하는 결과를 도출하기 위해서 예측이든 분류, 회귀를 위한 작업을 진행하는 단계이다. 즉 전처리된 데이터를 관점별    로 나누고 쪼개어 본다. 성능을 높이기 위해 parameter 튜닝 작업을 진행하게 된다.

 

5. 시각화 및 해석 단계

  모델링을 통해 결과가 도출되면 이를 처음 정의했던 문제와 연관시켜 문제를 해결하는 방법을 모색하는 단계

  시각화를 통해 도출된 결과를 알아보기 쉽게 표현하고, 이를 근거로 활용할 수 있다.

 

 

 


참고: https://velog.io/@kimdukbae/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%84%EC%B2%98%EB%A6%AC-%EC%9D%B4%EB%A1%A0-%EB%B0%8F-%EC%8B%A4%EC%8A%B51

 

반응형

'AI > Python' 카테고리의 다른 글

Anaconda 가상환경  (0) 2022.01.25
NLP 학습을 위한 기본 지식 #한국어의 단위  (0) 2021.10.12
Python #정규식 #정규 표현식  (0) 2021.09.25
Python #파이썬의 대모험 02  (0) 2021.09.01
Python #파이썬의 대모험 01  (2) 2021.08.31