大数据分析和传统统计学方法有什么样的关系
从方法上来讲,两者有共通的地方,比如说logistic回归、多元线性回归,既是统计学模型,也可以用于大数据的分析。
一、两者的本质区别
1、大数据分析和传统统计方法它们的理念是不一样的
现在的大数据分析技术,它可以处理的数据类型和范围都比较广,比如说文本型、图像、音频、视频这样的数据。大数据分析技术可以实现人工智能和模式识别,而传统统计学分析技术却不能很好的解决图像和文本挖掘的一些问题。
2、大数据分析技术现在越来越强调的是基于数据的关联性的判断
比如说,它可以在海量的数据里面直接挖掘暴露因素和疾病之间的关联,或者是它接受了某些处理跟预后之间的关系,直接做这些关联。但是传统统计学分析技术往往是基于样本,也就是能获得一个比较小的群体来通过样本进行总体的推断。所以有的人说大数据技术就是基于总体的,他不存在推断的问题,得到是有关联,那就是有关联了。而统计学呢,都是由样本去推断总体的。
二、在临床研究中如何选择合适的方法
其实没有必要在应用中把两种方法严格的区分,现在大数据,就是基于海量数据的分析方法,我们研究下来,传统统计模型仍然是很稳健的,比如logistic回归。那么具体到应用方面,我认为不应该从大数据技术和统计方法来区分,而应该从应用的目的来区分。
我们在临床研究中常见的有这么几类:一类是对于治疗方法的好与坏的评价。就是,看看哪种治疗方法好还是坏。那么像这种情况呢,可以进行RCT研究,这个就是传统的统计分析技术了。也可以开展真实世界研究,这里可能就会牵扯到统计技术和大数据分析技术的联合。第二类是寻找预后的影响因素。或者去判断怎么样改善患者的预后,那就需要借助比较大量的数据,特别是随访的资料去考察预后的结果。
还有现在比较热门的,就是直接用人工智能进行诊断就是鉴别诊断。那么像这样的一些技术大数据分析技术,比如数据挖掘的一些方法,就会更擅长一些。比如ANN人工神经网络,它可以很好的对图像进行识别,而传统统计学方法在这方面就明显能力不足了。
所以现在越来越多的提倡是数据驱动的临床应用研究。那么这个情况下,可能大数据技术的前景用的会更好。而我认为呢,统计学方法本来就是大数据分析技术中的一类。统计学方法,往往对于结构化数据的处理是比较具有优势的。
其实数据驱动和目的驱动,我觉得两者应该结合。数据驱动可以基于数据来给我们更多的临床应用和选题提供信息。而目前数据不能提供的,也可以在好的这个选题之下,建立一些诸如随访库或者标本库,然后来采集相应的数据。所以不能完全的说以数据驱动为主,还是以临床研究为主。
总结来说,我认为应该是结合你的研究目的到底要干什么,然后再结合你的数据类型,来从数据挖掘技术和统计学技术中选择合适的方法。