拿到一组数据,该怎么分析?你可以参考这个逻辑顺序,丰富你的内容
上一篇文章:《Sci-Hub的网址又更新了,且用且珍惜,并且告诉你们网址规律》,点击链接可阅读。
本期话题来源于一位读者在后台问我的留言,她问我在数据处理时,如果要比较两条拟合曲线的拟合效果哪个更好,用什么参数比较好?
这个问题引申出了今天的话题,在进行数据处理时,可以通过什么样的分析方法丰富分析内容。
首先拿到一组数据,你要做的是将它在坐标轴上表示出来,这样能够看清楚它的分布以及走势,放在表格中很难看清楚它的规律。
如果你的数据是多组数据,将数据点绘制在坐标轴之后,根据点的分布你可以大胆假设其满足什么分布,并对数据进行假设检验。假设检验的方法有很多,SPSS软件、MATLAB的Kstest方法都可以。我选择用MATLAB进行假设检验。
在介绍MATLAB方法之前,你得知道一些基本的分布函数是什么样的。举几个例子:
正态分布
泊松分布
威布尔分布
对数正态分布
我只是举了几个最基本的例子,虽然有的图形看起来差不多,但是你要能区别开,比如正态分布是对称分布,威布尔分布与对数正态分布是偏态分布。
观察你绘制的点,大胆猜测其满足什么分布,然后用MATLAB中Kstest函数进行假设检验。我之前写过一篇文章《清单|MATLAB作图时的那些重要操作「中」》,文章中介绍了如何利用MATLAB进行假设检验,如果你还不知道怎么用Kstest,可以点击阅读一下,看完之后还不懂,可以后台问我。
接下来,你可以从你的多组数据中提取出同一类型的数据,比如横坐标为时间,纵坐标为拱顶下沉值,将这些值单独提取出来之后可以对数据进行进一步分析:
1. 可以对数据点进行拟合
想要得到研究对象的变化规律,最简单粗暴的方法就是直接拟合出它的变化曲线,得到它的公式。为了分析比较拟合效果,有一些数值你需要得到,比如可决系数R^2,值越接近1,标明拟合的效果越好。
得到拟合公式的好处就是,你可以预测接下来研究对象的变化趋势,为相同的工程/研究提供参考,这正是很多研究的目的。
2. 可以对相同类型的数据进行对比
举个例子,从一大串数据中提取出来的同一类型的数,但同样是横坐标为时间,纵坐标为拱顶下沉值,隧道的左线与有右线又不一样,那么左线与右线的规律(大小值、离散性等)是否相同,你就可以通过对比分析相同类型的数据进行研究。
当你得到公式之后,还可以继续做分析。
1. 公式中有哪些变量,是否已经完整?
比如,你通过拟合发现拱顶下沉量y与时间x成指数关系:y=e^x+0.15,直接这么写的话,如果不深入研究觉得可能是对的。
但你深入研究之后发现,y与别的变量之间也有关系,比如隧道支护参数,这个参数很重要,你没法在研究中忽视它的存在,而在拟合公式中并不能体现。你可以认真分析,如何将这个变量添加到公式中。
2. 你的公式与别人的公式比较是进步了还是退步了?
写论文的本质就是比较,你拟合得到的公式相比于已有公式,有什么异同点,比如考虑了哪些参数,忽略了哪些要点,本构关系有什么不同,你比他进步在哪里?
有读者可能害怕自己的水平不够,研究的东西别人早就研究透彻,所以提出的公式不可能有进步。这是不对的。简单来说,就算你的公式考虑的参数不多,你也可以说你的公式计算较为简单,更有利于应用在工程实际中。
3. 如何验证你公式的正确性?
拟通过拟合得到的公式是否正确,只有验证了才知道。验证的途径有很多,你可以通过别人已发表的论文进行验证,或者是利用你自己的实验数据进行验证,但是要注意的是,你验证的实验数据和你拟合的数据不能一样。
到这里,可以说你的数据已经分析得基本到位了。但是,如果可以你还可以继续深入分析:
1. 实验值、仿真值进行对比分析
如果你想要更加丰富你的数据分析内容,不妨试试在分析实验数据的同时,用有限元软件进行仿真,将仿真结果与实验值进行对比分析。
2. 实验值、仿真值与理论值进行对比
能做到这儿的,都很厉害了,不用我说,应该都知道怎么做。如果你可以通过理论建模,利用数学的方法算出理论值,通过对比实验值、仿真值和理论值,可以提出哪一种方法更具有优越性。
数据是论文的核心,如果能利用好数据,充分挖掘数据的价值,好的论文自然就出来了。
今天关于数据分析的每个逻辑都能写出非常多的内容,同样一组数据,不同的分析逻辑能得到两套完全不同的研究结果,极大地丰富论文的内容。
以上。