你们想知道的房地产模型算法在这里
昨晚推送的文章:预测房地产短期市场趋势
一石激起千层浪
有支持的,有求学的,有存疑的
还有看穿一切的
后台询问最多的是
房价运行合理区间模型的合理性检验和搭建
一、关于模型合理性的检验
事实上,模型的合理性,要从行业特性说起
房地产的研究,一直以来,都处于非常原始的状态
专家打分法——凭经验、拍脑袋、然后堆一些数据验证观点
传统房地产研究结论,是难以量化得出
参考金融界的龙头企业“高盛”
之所以被称为“宇宙之王”,除了其在金融领域首屈一指的影响力
更重要的是它背后先进的软件,让它市场反应速度远快于对手
金融行业是离AI(人工智能)大规模商业化最近的行业之一。
创新工场AI工程院副院长王咏刚也指出,金融行业实际上完全满足,大规模商业应用AI的两个重要条件——
其一、数据的质量和数量必须达到一定的要求,尤其强调的是整个数据流程和每日的数据更新,这决定了AI发展的基础是否牢固;
其二,在所在领域有没有对问题的相对清晰的定义。
对应到中国房地产,虽然涉及诸多因素
但也满足应用AI的两大条件——数据的质和量;对问题的定义
房地产对问题的定义就是“人地钱”的问题
什么地段值什么钱
什么房子卖给什么人
建模预测房地产,量化研究成果,虽然还只是起步阶段,但却是时代趋势所在。至于成果的合理性检验,时间会帮我们完成
不过网友@张敬尧提出的“用10年前的数据预测五年前的事实,检验模型正确性”很值得一试
二、关于模型的搭建
这里分享的是投资模型搭建——
假设现在有500万的资金,要在北京投资1-2套房子,该怎么投资?哪些房子5年后的回报率最高?
首先,把样本按距离切片:此处我们把所有的房屋交易按时间切片,原则依然是在能满足样本量要求的情况下尽量细分——例如说分到每个季度
然后,对于每个季度内的房屋交易数据,都进行位置因素的分析:
基于所有二级变量,通过位置建模(位置建模的概念可以参考Geographically Weighted Regression这个基于线性回归的建模方法),得到每个交易点上不同的价格预测模型,即:在不同的地理位置,二级变量对价格的影响模型——位置上接近的点,其模型会更相似;
当所有二级变量取平均值(去除它们的因素)时,每个交易点得到一个只受位置影响的基值价格;
每个基值价格相对于所有基值价格的平均数,就得到了这一点的位置因子。
(图:Rich Borst)
基值价格的直观解释是,如果一个标准普通房子(所有二级指标全都取平均值的房子)在城市的不同位置,它的价格如何;转换成位置因子,我们可以看出这个价格是偏高还是偏低。
在地图上,可以对这个位置因子进行集群,将结果转换为城市里每个区域的价格是偏高还是偏低。对每个季度,都进行一次同样的分析。
(图:Rich Borst)
于是,对于城市的各个区域,我们将得到其位置因子随时间的变化折线图。
如果说,这个折线代表了五年期间的价格变化趋势,那么我们可以将它解读为一系列数字:
(1)当前的位置因子值;
(2)从五年前到当前的价格变化率;
(3)当前的价格变化率;
(4)价格变化的平稳性;
(5)……
通过这些数字,可以让机器分析告诉我们,房子投资在各个区域,预期的价格走势会如何。
(图:Rich Borst)
而当我们把目光转移到二级变量,我们依然是可以做两件事:
一是在各个区域内,通过深度学习,进行二级变量的建模,预测价格的走势;当我们有一些潜在可投资的房子,把它们的相关变量输入模型,就可以得到它们的价格走势预期。
二是让传统模型告诉我们,二级变量对价格走势的影响究竟如何——是大户型还是小户型容易升值,板楼还是塔楼容易升值。它的优点是直观,缺点是比较难捕捉各个变量的相互作用(例如可能虽然大户型不易升值,但较新楼盘的顶层的大户型反而升值非常快)。
(图:Rich Borst)
模型的搭建,主要是有两个并行的思路——完全交由深度学习去预测,和对各个因子的影响分析。
当然,如果要将这个流程实际操作起来,还会有很多问题:
怎样处理二级因素和位置因素的关联性;
如果交易数据中包含新房销售,怎样处理它的特殊性;
进行时间和空间的分割时,具体采用什么样的方法,等等。
但核心依然怎样分层次进行“控制变量——释放变量”这个问题。
以上解释,可能需要有一定数据分析经验,才能吃透
像小编我这种,没什么数据分析基础,要在地产圈子闯荡,还要与时俱进,不被行业淘汰,一般我会选择,化繁为简,大道归一——
转发此锦鲤,不用看禾略的长篇大论,也能瞬间学习到数据建模能力
陪你想,陪你写,陪你玩