【读者来稿】瓜子网分析哈尔滨汽车市场行情
作者介绍:陈继德,一枚数据分析师,在数据分析与数据挖掘的学习道路上探索数据价值
本文爬取哈尔滨瓜子二手车在售数据进行数据分析,对哈尔滨整体汽车市场简要呈现:
1、汽车销售旺季月份及趋势
2、哈尔滨购车人群消费等级
3、目前在售二手车型车辆的款型分布
4、在售二手车里程分布
5、新车及二手车差价分布
6、新旧车价差与里程数、上牌月份数三者回归关系
一:汽车销售月度分布及趋势
哈尔滨汽车销售旺季主要集中在6、7月份开始呈现上车趋势,毕竟夏天是个躁动的季节,随着天气转凉,汽车销售也随之转冷,不过在过年前的1月份,会有个销售小高潮
对于汽车销售商及二手车商,这这两时间段不加大销售及宣传力度更待何时,对于购车消费者,这个时候也许可能享受到更多的消费优惠
二、哈尔滨汽车消费等级
从数据分布图上可以发现,对于购车消费在40万以内的人群中,人们消费主要集中在7万到15万的消费区间;与此同时,消费在20万以内买车的购车者,占40万以内购车人群的75.7%
三、目前在售二手车型车辆的款型分布
1、在售二手车车型车辆款型分布
2、在售车二手车上牌年份分布
3、在售二手车里程数分布(万公里)
通过在售二手车数据分布分析可以发现,大部分车主会在车辆购买的3年到4年将车辆进行出售;同时,在里程数达到3万到7万公里时,车主也会考虑将车辆进行出售
四、出售时新车折损比例分布
通过车主出售时新车折损比例分布图显示,一般情况下车主的售车价格是当初购车价格的0.4到0.6倍之间。欲购二手车的金主们可参考借鉴。
五、新旧车价差与里程数、上牌月份数三者回归关系
from sklearn import linear_model #导入机器学习linear_model库
from sklearn import cross_validation #导入交叉验证库
from sklearn import preprocessing
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
car_dataset=pd.read_excel(r'C:\Users\Administrator\Desktop\瓜子二手车哈尔滨数据.xlsx')
car_dataset1=car_dataset[car_dataset['新车指导价(万元)']<=40]
#设置模型的自变量和因变量
x=car_dataset1[['里程','上牌月份数']]
y=car_dataset1[['新旧车价差(万元)']]
plt.rc('font',family='STXihei',size=15)#设置图标字体为华文细黑,字号15
plt.scatter(x['里程'],y,60,color='blue',marker='o',linewidth=3,alpha=0.8)#绘制散点图
plt.xlabel('里程')
plt.ylabel('新旧车价差(万元)')
plt.title('新旧车价差(万元)与里程分析')
plt.grid(color='#95a5a6',linestyle='--',linewidth=1,axis='both',alpha=0.4)
plt.show()
plt.rc('font',family='STXihei',size=15)#设置图标字体为华文细黑,字号15
plt.scatter(x['上牌月份数'],y,60,color='blue',marker='o',linewidth=3,alpha=0.8)#绘制散点图
plt.xlabel('上牌月份数')
plt.ylabel('新旧车价差(万元)')
plt.title('新旧车价差(万元)与上牌月份数分析')
plt.grid(color='#95a5a6',linestyle='--',linewidth=1,axis='both',alpha=0.4)
plt.show()
#数据分割(训练集与测试集)
x_train,x_test,y_train,y_test=cross_validation.train_test_split(x,y,test_size=0.3,random_state=0)
#将训练集数据代入到线性回归模型中
clf=linear_model.LinearRegression()
clf.fit(x_train,y_train)
LinearRegression(copy_X=True,fit_intercept=True, n_jobs=1, normalize=False)
print('系数:',clf.coef_)
print('截距:',clf.intercept_)
y_pre=clf.predict(x_test)
#R平方
R_fang=clf.score(x_test,y_test)
print('R方:',R_fang)
RMSE=np.sqrt(np.mean((y_test-y_pre)**2))
print('均方误差根:',RMSE)
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以通过扫描下方管理员二维码,让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
有好的文章可以联系我们与大家分享,需要获取代码或者转载本公众号文章,欢迎直接在公众号或者文章下方留言。
往期文章:
【读者来稿】Python&R爬取分析赶集网北京二手房数据(附详细代码)