管理法则:质量,互联网时代的根本
数据能满足其既定的用途,它才有质量。如果不能满足既定的目标和用途,就谈不上质量。换句话说,数据的质量不仅取决于它本身,还取决于它的用途。17
——杰克·奥尔森,数据库专家,2003年
数据质量的问题,是一个涉及数据收集、使用、发布等所有过程的问题。它的重要性,当然毋庸置疑。
虽然质量的问题贯穿整个数据管理工作的始终,但问题的爆发,常常发生在数据发布的阶段。
自从美国政府成立的第一天起,联邦政府就开始发布数据,但在没有互联网的时代,数据和信息的传播渠道、读者和受众,都相当有限。随着互联网的出现,政府开始在网上发布信息和数据,其受众骤然剧增,传播时间也大大缩短。
这对联邦政府而言,是一个很大的挑战。因为数据一经政府发布,往往被视为权威,对社会的各个领域都可能产生重大的影响。
在互联网时代,任何一份通过网络发布的信息,面对的都不是一个特定群体,而是全体国民。“足够多的眼睛,将使所有的错误都无所遁形。”如果政府所发布数据的质量不可靠,将受到频繁的、大范围的质疑,特别是一些可能会影响到公共政策和行业管制标准的数据,将引起巨大的争议。所以,联邦政府在互联网上发布数据,必须慎之又慎、保证质量。
为了保证数据发布的质量,OMB曾经制定过3个指导原则:
一是质量要有标准,联邦政府各部门必须制定衡量数据质量的统一标准,这个标准包括3个方面:
客观性:指发布的数据是否准确、客观、可靠;
实用性:是否对社会有用;
完整性:是否能够保证数据在收集、整理过程当中不受到非法的接触和修改。
二是质量管理要有流程。政府各部门必须针对数据质量,完善信息管理的流程,防止低质量的数据出现。
三是要有质量救助机制。政府各部门必须建立一个行政机制来应对社会、公众对于数据质量的质疑和挑战;如果政府发布的数据质量确实存在问题,必须有一个相应的纠错机制来补救。
乍听起来,这3个指导原则都简单、直接,但落实起来,却困难重重。
数据的完整性比较容易界定,但是何为“实用”、“准确、客观、可靠”,就仁者见仁、智者见智,很难有一个统一的标准。在经过几十年的纷争和论证之后,OMB认为:
联邦政府发布的数据,其获得的方式、产生的方法必须是透明的,也就是要向社会公布你的数据收集方法,而且别人通过相同的方法,应该能够产生、复制相同的数据。
这就要求政府要在发布数据的同时,必须发布一系列的文档,说明数据的来源、产生的方法,以及用户复制过程当中可能出现的问题和错误。
另一个争议的热点在于,谁对数据质量有最终的裁判权?如果所发布数据的质量不过关,联邦政府的纠错机制到底该如何运行?如果政府和社会对某项数据的质量有争议,最终分歧不能统一,是否可以提起法律诉讼?
为了明确地回答这些问题,2001年,美国国会甚至通过了《数据质量法》(Data Quality Act)。但这个法律,还是没有很好地解决问题,它引起了更多的纷争,联邦政府甚至因此多次成为被告,与个人、企业对簿公堂。欲知其中的曲折和详情,请看下章分解。
注释
01 英语原文为:“A popular government without popular information or the means of acquiring it is but a prologue to a farce or a tragedy, or perhaps both. Knowledge will forever govern ignorance: And a people who mean to be their own Governors, must arm themselves with the power which knowledge gives.”—Letter from James Madison to W.T. Barry(August 4, 1822)
02 Information Collection Budget 2010, Office of Information and Regulatory Affairs, P.5.
03 这是美国国家税务局(Internal Revenue Service)率先推出的一种在线报税系统,该系统直接与后台数据库相连,能指导提示用户填入信息,并能自动计算用户需要缴纳的税收,大大减少了用户填报税表的时间。
04 英语原文为:“Privacy is a value that runs through the veins of the American people.”—Anna G. Eshoo, The Honorable Anna G. Eshoo, personal interview, 10 April 2002
05 英语原文为:“The poorest man may in his cottage bid defiance to all the forces of the Crown. It may be frail, its roof may shake; the wind may blow through it; the storm may enter, the rain may enter—but the King of England cannot enter; all his force dares not cross the threshold of the ruined tenement.”—William Pitt
06 Olmstead v. United States, 277 U.S. 438(1928)
07 Katz v. United States, 389 U.S. 347(1967)
08 该法规全文可见于美国白宫网站:http://www.whitehouse.gov/omb/circulars_a130#7,(2011-10-30)。
09 United States v. Miller, 425 U. S. 435(1976)
10 英语原文为:“Agencies set user charges for information dissemination products at a level sufficient to recover the cost of dissemination but no higher. They must exclude from calculation of the charges costs associated with original collection and processing of the information.”—Circular No. A-130
11 英语原文为:英语原文为:“Copyright protection under this title is not available for any work of the United States Government, but the United States Government is not precluded from receiving and holding copyrights transferred to it by assignment, bequest, or otherwise.”—Copyright Act of 1976
12 在政府收集的全部信息和数据当中,只有一个例外,这就是1968年通过的《标准参考数据法案》(Standard Reference Data Act)。标准参考数据,指的是某种物质的可以测量的物理和化学属性,这种属性可以用定量的数据表达出来。为物质属性建立标准化的数据指标,是推进科学研究的重要手段。根据该法案,美国商务部可以对“标准参考数据”申请版权,并可以出售,出售的价格可以包括信息收集、编辑、评估、发布以及行政管理的费用和成本。
13 The Economics of Public Sector Information. University of Cambridge, Rufus Pollock, November 2008, Available at http://www.rufuspollock.org/economics/papers/economics_of_psi.pdf.
14 Assessing the Economic & Social Benefits of NOAA Data, NAS/OECD Conference, Paris. Rodney Weiher. February 2008, at 17-18. Available at http://www.oecd.org/dataoecd/12/31/40066192.pdf.
15 该公司名称为:Weather Exchange Ltd.
16 PricewaterhouseCoopers(2001)The weather risk management industry: survey findings for November 1997 to March 2001. Prepared for the Weather Risk Management Association, June 2001.
17 英语原文为:“Data has quality if it satisfies the requirements of its intended use. It lacks quality to the extent that it does not satisfy the requirement. In other words, data quality depends as much on the intended use as it does on the data itself.”—Data quality: the accuracy dimension, Jack E. Olson, 2003