16.1.3 数据排列顺序
对象化前最常使用的操作就是排序,在Avro确定了数据标准排列顺序后,就允许系统写入的数据可以被另外的系统高效地排序了,这是个很重要的优化。即使Avro二进制数据还没有反序列化成对象,也可以对其进行高效排序。
要对拥有相同模式的数据项进行比较,可以采用对模式的深度优先、从左到右递归成对的方式。遇到不能匹配的项即按原来顺序,比如boolean类型的数据和int类型的数据不能匹配,那就不用进行排序。具体来说,相同模式的两个项进行比较时须遵从下面的规则。
null数据总是相等的。
boolean类型中false排在true的前面。
int、long、float和double数据按照数值升序排列。
bytes和fixed数据根据8位无符号值按照字典序进行比较。
string数据根据Unicode按字典序进行比较,要注意的是,对字符串而言,既然UTF-8作为二进制编码使用,那么按字节排序和按字符串二进制数据排序是相同的。array数据根据元素按字典序进行比较。
enum数据根据枚举模式中符号的位置进行排序。例如,枚举的符号位["z","a"]把"z"排在"a"前面。
union数据先按照联合的分支进行排序,然后按照分支的类型排序。例如,联合["int","string"]中,所有整型将排在所有字符型值前,而整型和字符型各自按照上面的规则排序。
record数据根据字段按字典序排序。如果字段指定其顺序为:
·"ascending",其值排序的顺序不变;
·"descending",其值排序的顺序反转;
·"ignore",排序时其值将忽略。
map数据不进行比较。试图比较包含映射的数据是非法的,除非映射是“有序”的,否则“忽略”记录字段。