House Price Prediction Using Machine Learning

by. Jongwon Lee | 149 Views (107 Uniq Views) | about 2 years ago
#MachineLearning #DataScience #Economics
A Case in Hendricks, Hamilton, Tippecanoe of Indiana, United States.
미국 인디애나 주 부동산 가격 예측
2022.08 - 2022.12
  • 목표 및 문제 정의: 6년간의 주택 거래 데이터를 수집 및 활용하여 주택 가격에 영향을 미치는 주요 요인을 식별하고, 내부적 특성 (면적, 방 개수 등)과 외부적 특성 (학교 접근성, 공항 거리 등)을 분석해 예측 모델 개발.
  • 주요 수행 내용: 다양한 소스의 데이터를 직접 수집, 통합하고 고성능의 모델을 개발.
    • 데이터 수집 및 통합:
      • Zillow, Redfin 등의 상업 부동산 웹사이트 데이터를 Beautifulsoup, Selenium 등의 웹 크롤러로 수집하려 했으나 정책, 사이트의 보안상 이슈로 수집의 한계점 발견.
      • Google Places, Melissa, Niche.com, Stats Indiana Data 등에서 API사용, 유료 데이터 구매로 6년간의 부동산 거래 사용.
    • 모델링:
      • Regression, SVM, XGBoost, CatBoost, LGBM 등 머신러닝 알고리즘을 활용해 예측 모델링 수행
      • SHAP (Shapley Additive Explanations) 시각화를 통해 모델 결과 해석 및 주요 인사이트 도출.
      • 베스트 모델 선정 후 베이지안 최적화로 하이퍼 파라미터 튜닝.
    • 결과 해석:
      • 내부적 특성 중 면적, 건축년도 외부적 특성 중 학교 접근성, 일자리 등이 주택 가격에 중요하게 작용.
      • Melissa 출처의 데이터가 가장 성능이 좋음.
      • XGBoost가 최적의 모델로, MAPE 11.53% 달성.
      • 주택 가격은 면적, 건축년도와 같은 내부적 특성과 학교 접근성, 일자리 분포 등 외부적 특성 간의 복잡한 비선형 관계를 포함. XGBoost는 이러한 비선형 관계를 효과적으로 학습하여 높은 예측 성능을 발휘.
    • 결과 분석 및 성과:
      • 여러 출처에서 수집한 데이터 중 고성능을 내는 데이터 출처를 선별하여 데이터 구입 자금 투자방향을 제시.
      • 이후 같은 프로젝트를 인디애나 주 전체에 확장.

Abstract
The proposed article identifies factors such as property locations and characteristics that drive residential housing prices. We aim to gain insights from housing price models to use in economic development, urban planning, financial services, logistics, and industrial development. To do so, we developed a predictive model for housing prices that provides an understanding of the most important factors driving property prices. In order to do this, we leveraged data sources such as Sales Disclosure Forms (STATS Indiana), Geocoding (ArcGIS with the help of IU Polis Center), property characteristic features (Melissa Data - Intrinsic), and property location-based features (Niche.com Ratings, Google Places API, School Ratings - Extrinsic). 

Keywords— House Price Prediction, Random Forest, XGBoost, LightGBM, Gradient Boosting, CatBoost, Shapley Additive Explanations