查看原文
其他

【读者来稿】瓜子网分析哈尔滨汽车市场行情

陈继德 数据森麟 2019-06-23

作者介绍:陈继德,一枚数据分析师,在数据分析与数据挖掘的学习道路上探索数据价值


本文爬取哈尔滨瓜子二手车在售数据进行数据分析,对哈尔滨整体汽车市场简要呈现:

1、汽车销售旺季月份及趋势

2、哈尔滨购车人群消费等级

3、目前在售二手车型车辆的款型分布

4、在售二手车里程分布

5、新车及二手车差价分布

6、新旧车价差与里程数、上牌月份数三者回归关系

 

 

一:汽车销售月度分布及趋势

 

 

 

哈尔滨汽车销售旺季主要集中在6、7月份开始呈现上车趋势,毕竟夏天是个躁动的季节,随着天气转凉,汽车销售也随之转冷,不过在过年前的1月份,会有个销售小高潮

 

对于汽车销售商及二手车商,这这两时间段不加大销售及宣传力度更待何时,对于购车消费者,这个时候也许可能享受到更多的消费优惠


二、哈尔滨汽车消费等级

 

 

从数据分布图上可以发现,对于购车消费在40万以内的人群中,人们消费主要集中在7万到15万的消费区间;与此同时,消费在20万以内买车的购车者,占40万以内购车人群的75.7%


三、目前在售二手车型车辆的款型分布

 

1、在售二手车车型车辆款型分布

 


2、在售车二手车上牌年份分布

 


3、在售二手车里程数分布(万公里)




通过在售二手车数据分布分析可以发现,大部分车主会在车辆购买的3年到4年将车辆进行出售;同时,在里程数达到3万到7万公里时,车主也会考虑将车辆进行出售


四、出售时新车折损比例分布

 

 

通过车主出售时新车折损比例分布图显示,一般情况下车主的售车价格是当初购车价格的0.4到0.6倍之间。欲购二手车的金主们可参考借鉴。


五、新旧车价差与里程数、上牌月份数三者回归关系


from sklearn import linear_model #导入机器学习linear_model库
from sklearn import cross_validation #导入交叉验证库
from sklearn import preprocessing
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
car_dataset=pd.read_excel(r'C:\Users\Administrator\Desktop\瓜子二手车哈尔滨数据.xlsx')
car_dataset1=car_dataset[car_dataset['新车指导价(万元)']<=40]
#设置模型的自变量和因变量
x=car_dataset1[['里程','上牌月份数']]
y=car_dataset1[['新旧车价差(万元)']]
plt.rc('font',family='STXihei',size=15)#设置图标字体为华文细黑,字号15
plt.scatter(x['里程'],y,60,color='blue',marker='o',linewidth=3,alpha=0.8)#绘制散点图
plt.xlabel('里程')
plt.ylabel('新旧车价差(万元)')
plt.title('新旧车价差(万元)与里程分析')
plt.grid(color='#95a5a6',linestyle='--',linewidth=1,axis='both',alpha=0.4)
plt.show()



plt.rc('font',family='STXihei',size=15)#设置图标字体为华文细黑,字号15
plt.scatter(x['上牌月份数'],y,60,color='blue',marker='o',linewidth=3,alpha=0.8)#绘制散点图
plt.xlabel('上牌月份数')
plt.ylabel('新旧车价差(万元)')
plt.title('新旧车价差(万元)与上牌月份数分析')
plt.grid(color='#95a5a6',linestyle='--',linewidth=1,axis='both',alpha=0.4)
plt.show()



#数据分割(训练集与测试集)
x_train,x_test,y_train,y_test=cross_validation.train_test_split(x,y,test_size=0.3,random_state=0)
#将训练集数据代入到线性回归模型中
clf=linear_model.LinearRegression()
clf.fit(x_train,y_train)
LinearRegression(copy_X=True,fit_intercept=True, n_jobs=1, normalize=False)
print('系数:',clf.coef_)
系数: [[0.00410552 0.00460003]]
 print('截距:',clf.intercept_)
截距: [0.2223351]
y_pre=clf.predict(x_test)
#R平方
R_fang=clf.score(x_test,y_test)
print('R方:',R_fang)
R方: 0.781238024042034
RMSE=np.sqrt(np.mean((y_test-y_pre)**2))
print('均方误差根:',RMSE)
均方误差根: 新旧车价差(万元)    0.073192



数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以通过扫描下方管理员二维码,让管理员帮忙拉进群,期待大家的加入。


管理员二维码:




有好的文章可以联系我们与大家分享,需要获取代码或者转载本公众号文章,欢迎直接在公众号或者文章下方留言。


往期文章

透过日播放量超过6亿的《延禧攻略》,看2018视频网站格局

3天破9亿!上万条评论解读《西虹市首富》是否值得一看

“水泊梁山“互联网有限公司一百单八将内部社交网络

Python爬虫&可视化第1季-城市旅游数据分析

Python爬虫&可视化第2季-舌尖上的“小龙虾”

人工智能在京东金融中的应用

【读者来稿】Python&R爬取分析赶集网北京二手房数据(附详细代码)

【读者来稿】数据解读《爱情公寓》电影版——十年一瞬间



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存