数据采集的三大要点
如下:
1、可靠性原则:信息必须是真实对象或环境所产生的,必须保证信息来源是可靠的,必须保证采集的信息能反映真实的状况。
2、完整性原则:信息采集必须按照一定的标准要求,采集反映事物全貌的信息,完整性原则是信息利用的基础。
3、实时性原则:信息自发生到被采集的时间间隔,间隔越短就越及时,最快的是信息采集与信息发生同步。
4、准确性原则:采集到信息的表达是无误的,是属于采集目的范畴之内的,相对于企业或组织自身来说具有适用性,是有价值的。
5、计划性原则:采集的信息既要满足当前需要,又要照顾未来的发展;既要广辟信息来源,又要持之以恒。
6、预见性原则:信息采集人员要掌握社会、经济和科学技术的发展动态,要随时了解未来,采集那些对将来发展有指导作用的预测性信息。
信息采集的渠道:
1、传统信息系统。传统信息系统采集的信息往往具有较高的价值,一方面原因是传统信息系统采集的往往是结构化数据,易于统计和分析,另一方面原因是传统信息系统采集的数据往往是比较重要的数据。
2、Web平台。信息来源的另一个重要渠道是各种Web平台,随着Web应用的普及,尤其是Web2.0的普及应用之后,整个Web系统产生了大量的数据,这些数据也是大数据系统的重要数据来源之一。
3、物联网系统。物联网与大数据的关系非常紧密,与传统信息系统和Web系统不同,物联网的数据大部分都是非结构化数据和半结构化数据,要想对其进行分析需要采用特定的处理方式,比较常见的处理方式包括批处理和流处理。