什么是数据模型?
主要由数据结构、数据操作和完整性约束部分组成,通常称为数据三要素。
数据模型是用于描绘、沟通数据需求的一组简单易懂、标准的,并且便于计算机实现的标准符号的集合。数据库很强大,但数据在其中的关系却错综复杂,成千上万个表通过各种关系或约束互连以形成复杂的结构。
没有数据模型,利益相关者很难看到现有数据库的结构、理解关键概念,当需要描述数据需求的时候,也很难准确地表达出来,这也是数据模型很重要的一个最主要的原因。
数据的技术特征主要包括以下维度。
一是数据的样本分布、时间覆盖和字段等。
二是数据容量,比如样本数、变量数、时间序列长度和占用的存储空间等。
三是数据质量,比如样本是否有代表性,数据是否符合事先定义的规范和标准,观察的颗粒度、精度和误差,以及数据完整性。
四是数据的时效性。因为观察对象的特征和行为可以随时间变化,数据是否还能反映观察对象的情况。
五是数据来源。有些数据来自第一手观察,有些数据由第一手观察者提供,还有些数据从其它数据推导而来。数据可以来自受控实验和抽样调查,也可以来自互联网、社交网络、物联网和工业互联网等。数据可以由人产生,也可以由机器产生。数据可以来自线上,也可以来自线下。
六是数据类型,包括结构化还是非结构化的,以及存在形式(文字、数字、图表、声音和视频等)。
七是不同数据集之间的互操作性和可连接性,比如样本ID是否统一,变量定义是否一致,以及数据单位是否一致等。
八是是否为个人数据。个人数据在隐私保护上有很多特殊性,需要专门讨论。
2024-11-22 广告