查看原文
其他

在郑州,你该买哪里的房子?

数据社 数据社 2022-05-08
 背景

某次和领导吃饭,无意中提到了房子的话题,说了几句自己的心得经验(虽然没有再次实操的资本),却给领导留下了深深的印象(领导,你不是又要在郑州置业了吧)。

前段时间一个老朋友也联系我咨询郑州房子的事情(难道就因为我在郑州吗?)。那朋友一连串问了我好几个为题,听说郑州现在房子降价了?现在该不该买?买这个XXX楼盘合适吗?

可是,我们是老朋友,你懂的。本着负责任的态度,今天我们来一块分析下郑州的房价,数据爬取自某房中介网站(我只是数据的搬运工,不对数据真实性负责哈)。

一、数据探索

爬取数据的代码已经上传全球最大同性交友网站,请star :https://github.com/qinchaofeng/zz_house_price_analysize/blob/master/zz_house_lj.py

首先我们来简单探索爬取的数据都有哪些内容:

  1. df_gx = pd.read_excel("E:/code/python/file/高新区.xlsx",0,header = 0)

  2. df_gx.head()


爬取的时候分按照区域分的文件,先合并文件:

  1. ##读取爬虫数据

  2. df_gx = pd.read_excel("E:/code/python/file/高新区.xlsx",0,header = 0)

  3. df_eq = pd.read_excel("E:/code/python/file/二七区.xlsx",0,header = 0)

  4. df_gc = pd.read_excel("E:/code/python/file/管城区.xlsx",0,header = 0)

  5. df_gq = pd.read_excel("E:/code/python/file/航空港区.xlsx",0,header = 0)

  6. df_hj = pd.read_excel("E:/code/python/file/惠济区.xlsx",0,header = 0)

  7. df_jk = pd.read_excel("E:/code/python/file/经开区.xlsx",0,header = 0)

  8. df_dq = pd.read_excel("E:/code/python/file/郑东新区.xlsx",0,header = 0)

  9. df_zy = pd.read_excel("E:/code/python/file/中原区.xlsx",0,header = 0)

  10. df_js = pd.read_excel("E:/code/python/file/金水区.xlsx",0,header = 0)


  11. #增加区域标签

  12. df_gx["区"]="高新区"

  13. df_eq["区"]="二七区"

  14. df_gc["区"]="管城区"

  15. df_gq["区"]="航空港区"

  16. df_hj["区"]="惠济区"

  17. df_jk["区"]="经开区"

  18. df_dq["区"]="郑东新区"

  19. df_zy["区"]="中原区"

  20. df_js["区"]="金水区"

  21. #合并文件,查看数据量

  22. df = df_gx.append(df_eq).append(df_gc).append(df_gq).append(df_hj).append(df_jk).append(df_dq).append(df_zy).append(df_js)

  23. df.shape

此次分析的数据共16个特征,11926条记录。

二、数据分析

每个区数据条数如下:

  1. df['区'].value_counts()

可以看出,管城、中原两个区域的房子比较多,大概是因为两个区域有浓厚的生活气息,大家都知道中原区美食是相当多啊。另外经开区和航空港区的房子较少,两个都属于新开发的区域,港区距离郑州中心城区又更远一些。

郑东新区挂牌房子少,大概率是太贵了,我等屌丝买不起啊!

另外,买房的你还看什么,户型 ,户型不好了利用率低,屋子再小得有3个房间吧,要不来个亲戚还是没地方住。

  1. df['房屋户型'].value_counts().head()

嘿嘿嘿,果然3室的房子更多,现在市场上有很多小三室(90平以内),很适合刚需置业者的首选,年轻人打拼不易,慢慢来,大平层会有的,别墅也会有的……

还是得买南北通透的房子,不信你看。

买房最关心的应该就是房屋的价格,下面我们来看下每个区域的价格分布。

首先对原始数据进行处理,去掉单位,方便后续计算。

  1. #去掉单位,转数字


  2. df["单价"] = pd.to_numeric(df["单价"].str.replace("元/平米",""))

  3. df["总价"] = pd.to_numeric(df["总价"].str.replace("万",""))

  4. df["建筑面积"] = pd.to_numeric(df["建筑面积"].str.replace("㎡",""))


  1. price = df["单价"].apply(lambda s : s).astype("float16")

  2. sns.distplot(price,bins = 20)



单价1万5左右的房子最多。曾经有人问我,一个城市的房价多高最幸福,我想的是工资是房价的1.2倍,然后没有贷款……

我们还是来看看房子的大小都什么情况吧

  1. price = df["建筑面积"].apply(lambda s : s).astype("float16")

  2. sns.distplot(price,bins = 20)

果然还是90平的房子最多,我们都是刚需~

那么价格和面积是否正相关呢,我们来看下:

  1. # 价格与面积的关系

  2. area_price = pd.DataFrame(list(zip(df["建筑面积"].apply(lambda s : s).astype("float16").values,df['单价'].fillna(0).values)),columns = ['建筑面积','单价'])


  3. sns.jointplot(x = "建筑面积",y = "单价",data = area_price)

哦,两者好像并没有正负相关关系,可能在单个小区面积和单价是有关系的。

来看看有钱人的世界,看看郑州房价的天花板,哪些小区更贵!

  1. #查看房屋单价最贵的小区

  2. nb_house = df.groupby(['位置','区'])['单价'].mean().sort_values(ascending = False).reset_index().head(15)

  3. nb_house

三、结论

看到这个房价就没心情往下分析了,有啥用,又买不起,呵呵呵呵、呜呜呜呜!

还是让领导们看看选一下吧!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存