数据清洗,术语之美

最近在考察基于元数据搜索的统一检索系统,经常看到一个很洋盘的新词”数据清洗”。

搜索了一下,发现这是一个数据仓库领域的常用词,甚至有专门的职位招聘叫”数据清洗员”。

何为数据清洗?

百度百科说:数据清洗的任务是过滤那些不符合要求的数据(脏数据),不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

这个解释似乎并不完善,我理解的数据清洗应该是使数据更规范,即符合特定元数据规范的要求。来看看另一个解释。

来自不同数据源的数据,对同一个概念有不同的表示方法。在集成多个数据源时,需要消解模式冲突,主要就是为了解决这个问题。还有相似重复记录的问题,需要检测出并且合并这些记录。解决这些问题的过程称为数据清洗过程,数据清洗(data cleaning,data cleansing或者data scrubbing)的目的是检测数据中存在的错误和不一致,剔除或者改正它们,这样就提高了数据的质量。(摘自 郭志懋,周傲英. 数据质量和数据清洗研究综述. 软件学报,2002(11))

没错,这就全面了。一是为了规范,二是解决重复和错误数据。在将各个数据库的元数据抓取或收割以后,数据清洗应该是个非常关键的步骤,关系到元数据的质量。

我喜欢这样的术语,有着简洁之美。如同上次有人对我说:”其实我们每天都只是看那么几个网站的信息,经常看的网站,你就经常会去点。尤其是放入收藏夹之后。不看的永远不会去看。”这么啰嗦的几句话被我一词以蔽之--路径依赖。^_^