본문 바로가기

이론/Dacon

버스 운행 시간 예측 프로젝트

- 데이터 분석을 위한 중요 개념

1) Featrue vs Target

+ Feature: 예측을 위해 활용되는 데이터 ( 독립변수 X라고도 함 )

+ Target: 예측하고자 하는 대상 ( 종속변수 y라고도 함 )

 

2) Numerical Data vs Categorical Data

+ Numerical Data: 수치형 자료, 숫자로 측정할 수 있는 자료

    ex) 기온, 풍속, 체중 등

+ Categorical Data: 범주형 자료, 숫자로 측정할 수 없는 자료

    ex) 날씨, 혈액형, 성별 등

 

3) Regression vs Classification

+ Regression: 회귀 ( 수치형 데이터 예측에 사용 )

    ex) 주식 종가 예측

+ Classification: 분류 ( 범주형 데이터 ) 예측에 사용

    ex) 주식 상승(or 하락) 예측

 

=> Target(예측 대상)이 Numerical(수치형)인지 Categorical(범주형)인지에 따라 Regression(회귀)문제인지 Classification(분류)문제인지 결정됩니다.

 

- 값 추출하기

1) values: 데이터의 값 추출

    index: 데이터의 인덱스 추출

    tolist: array를 list로 변환

ex) train[['next_latitude', 'next_longitude']][:5].values.tolist()

 

- Folium 지도 그리기

1) Folium이란?

: folium은 leaflet.js(자바스크립트 라이브러리) 기반으로 만들어진 Python 지도 시각화 라이브러리입니다.

  folium을 사용하면 대화형(interactive) 지도를 생성하고, 마커를 추가하여 시각화하거나 원으로 범위를 표기하고 html 파    일로 내보내기 등을 수행할 수 있습니다.