PDF미국 인디애나 주 세 카운티의 부동산 가격 예측 2022.08 - 2022.12
목표: 6년간의 주택 거래 데이터를 활용하여 주택 가격에 영향을 미치는 주요 요인을 식별하고, 내부적 특성 (면적, 방 개수 등)과 외부적 특성 (학교 접근성, 공항 거리 등)을 분석해 예측 모델 개발
주요수행 내용:
• 주 및 카운티별 부동산 가격에 영향을 미치는 특성의 차이를 분석하고, 인디애나 주 특정 카운티들에 대한 연구 공백을 문제로 제시
데이터 수집 및 통합:
• Zillow, Redfin 등의 상업 부동산 웹사이트 데이터를 Beautifulsoup, Selenium 등의 웹 크롤러로 수집하려 했으나 정책, 보안상에서 수집 한계점 발견
• Google Places, Melissa, Niche.com, Stats Indiana Data 등에서 API사용, 유료 데이터 구매 결정, 6년간의 부동산 거래 사용
모델:
• Regression, SVM, XGBoost, CatBoost, LGBM 등 머신러닝 알고리즘을 활용해 비선형 관계와 상호작용 분석
• SHAP (Shapley Additive Explanations) 시각화를 통해 모델 결과 해석 및 주요 인사이트 도출
• 하이퍼파라미터 튜닝 - 베이지안 최적화
성과:
• 내부적 특성 중 면적, 건축년도 외부적 특성 중 학교 접근성, 일자리 등이 주택 가격에 중요하게 작용, Melissa 출처의 데이터가 가장 성능이 좋음
• XGBoost가 최적의 모델로 선정되었으며, 매우 낮은 MAPE (평균 절대 퍼센트 오차) 11.53%를 달성
• 비선형, 다른 출처의 데이터들을 통합, 다른 특질의 데이터들의 복잡한 상호작용 등의 이유로 XGBoost가 이 프로젝트의 부동산 데이터셋 분석에 높은 효율을 보였을 것임
• 이후 같은 프로젝트를 인디애나 주 전체에 확장, 비즈니스 대학에 상업적 목적으로 활용 권유
Abstract
The proposed article identifies factors such as property locations and characteristics that drive residential housing prices. We aim to gain insights from housing price models to use in economic development, urban planning, financial services, logistics, and industrial development. To do so, we developed a predictive model for housing prices that provides an understanding of the most important factors driving property prices. In order to do this, we leveraged data sources such as Sales Disclosure Forms (STATS Indiana), Geocoding (ArcGIS with the help of IU Polis Center), property characteristic features (Melissa Data - Intrinsic), and property location-based features (Niche.com Ratings, Google Places API, School Ratings - Extrinsic).
Keywords— House Price Prediction, Random Forest, XGBoost, LightGBM, Gradient Boosting, CatBoost, Shapley Additive Explanations