결측값을 확인하고 여기까지는 했지 어제까지도..
오늘 결측값을 고심고심해서 값을 대체하고
변수간 상관관계에 갑자기 집중하게 됐다.
1. MEDV와 다른 변수들 간의 상관관계
히트맵의 마지막 열(MEDV)에서 상관관계 값을 확인하면, 주택 가격(MEDV)과 독립 변수들 간의 관계를 알 수 있습니다.
- MEDV와 강한 상관관계를 가지는 변수
- RM (0.7):
- 주택당 평균 방 개수는 주택 가격과 강한 양의 상관관계를 보입니다.
- 방 개수가 많을수록 주택 가격이 높아지는 경향을 나타냅니다.
- LSTAT (-0.72):
- 하위 계층 인구 비율은 주택 가격과 강한 음의 상관관계를 보입니다.
- 하위 계층 인구 비율이 높을수록 주택 가격이 낮아지는 경향을 나타냅니다.
- RM (0.7):
- MEDV와 중간 정도의 상관관계를 가지는 변수
- PTRATIO (-0.51):
- 교사-학생 비율이 높을수록 주택 가격이 낮아지는 경향이 있습니다.
- INDUS (-0.48):
- 비소매 업종 면적 비율이 높을수록 주택 가격이 낮아지는 경향이 있습니다.
- TAX (-0.47):
- 높은 재산세율은 주택 가격과 음의 상관관계를 가집니다.
- NOX (-0.43):
- 일산화질소 농도가 높을수록 주택 가격이 낮아지는 경향을 보입니다.
- PTRATIO (-0.51):
- MEDV와 약한 상관관계를 가지는 변수
- CRIM (-0.38):
- 범죄율과 주택 가격은 약한 음의 상관관계를 가집니다.
- AGE (-0.38):
- 오래된 주택 비율이 높을수록 주택 가격이 낮아지는 경향이 있습니다.
- CRIM (-0.38):
2. 상관관계 해석
a. RM과 MEDV
- 방 개수(RM)는 주택 가격(MEDV)과 가장 강한 양의 상관관계를 가집니다.
- 이는 방이 많을수록 더 고급 주택일 가능성이 높다는 점을 나타냅니다.
- 모델링 시 중요한 변수로 사용될 수 있습니다.
b. LSTAT과 MEDV
- 하위 계층 인구 비율(LSTAT)은 주택 가격(MEDV)과 가장 강한 음의 상관관계를 가집니다.
- 경제적으로 취약한 지역일수록 주택 가격이 낮아지는 것을 나타냅니다.
- 모델링 시 중요한 변수로 사용될 수 있습니다.
c. 다른 변수들과의 상관관계
- PTRATIO, TAX, NOX 등은 MEDV와 중간 정도의 상관관계를 가지며, 모델링에 부가적인 설명력을 제공할 수 있습니다.
- ZN이나 CHAS는 MEDV와의 상관관계가 약하므로, 모델 성능에 큰 영향을 미치지 않을 가능성이 있습니다.
3. 변수 선택
a. 중요한 변수
모델 학습에 가장 큰 기여를 할 가능성이 높은 변수들:
- RM (양의 상관관계)
- LSTAT (음의 상관관계)
- PTRATIO, INDUS, TAX, NOX (중간 정도의 음의 상관관계)
b. 영향이 적은 변수
상관관계가 약한 변수들은 중요도가 낮을 수 있습니다:
- CHAS, ZN, B
내가 생각해낸 건 비소매업종 면적비율이랑 대기 중 일산화질소 농도가 관련 있을 것 같다...고는 생각했다.
공장이나 창고가 많을수록 공기가 나쁘겠지?
그것 말고도 여러가지가 있다는 걸 알고 나니...아무튼 여기까지 했다
여태까지 한거 다시 엎어버려서 기록해둘걸 싶다^^
내일 해야지!
일단 혼자 공부하는 머신러닝 딥러닝 선형회귀까지 다 읽었음!
내일 해야지!
메리크리스마스!
'TIL' 카테고리의 다른 글
내일배움캠프 본캠프 21일차 - 머신러닝 특강(사이킷런)/진로고민 (1) | 2024.12.23 |
---|---|
내일배움캠프 3주차 WIL (2) | 2024.12.20 |
내일배움캠프 본캠프 20일차 - 정신없는 하루 (7) | 2024.12.20 |
내일배움캠프 본캠프 19일차 - 머신러닝 과제1번 힘들다 (2) | 2024.12.19 |
내일배움캠프 본캠프 17일차 - 머신러닝 특강 (3) | 2024.12.17 |