数据模型、采集与集成技术的研究

多源地学地理信息系统

福建地勘局数据信息中心 李超岭 邱丽华

返回


____编者按:在GIS的实际应用中,面向多源信息应用分析的GIS系统技术还没有得到人们的重视,最致命的是把简单的电子地图的数据模型用作空间分析的GIS数据模型,增加了空间分析的局限性和不准确性,大大降低了数据的使用价值,对复杂的、具有不确定性结构的环境分析、预测和过程模拟能力有限。因此,面向多源地学信息系统在数据模型、采集与集成技术方面是GIS的质量和集成各种数据集能力的重要因素之一。本报将分两次介绍这一技术。

____地理信息系统的应用大致可分为两大类:一类以多源信息的集成管理为主,另一类以多源信息的分析为主。数据是地理信息系统应用的基础,科学有效地管理多源地学信息不仅是分析型地理信息系统应用的前提,本身也是地理信息系统应用的重要组成部分,影响分析型地理信息系统的主要因素有:

____·地学数据模型;

____·面向多元信息的编码设计;

____·数据采集技术;

____·元数据。

____一、面向GIS地学数据模型

____地学数据模型定义地学数据及其数据之间的关系,并通过一种通用语言和一个地学信息的公共结构,为地学数据理解提供一个公共的基础,以便描述所采集的数据,用于地学计算机系统的开发,定义数据库和进行数据转换。因此,数据模型由地学要素(实体)和这些要素的特征(属性)组成,并用E-R图来描述数据模型的实体关系。而面向GIS地学数据模型是由地学要素实体和点、线、面三个实体综合表示地学空间的模型。它可以用图层和相应的属性描述,层是用以区分空间实体的类别,即属性一致的地理实体或特征相同的地理因子在空间分布的集合,目的是为了制图、显示、管理和分析。涉及的主要地学数据模型的数据有:

____1. 地理底图

____1/1万、1/2.5万、1/5万、1/10万、1/20万、1/25万、1/50万、1/500万地形图。

____2. 区域地质调查

____(1) 1/5万、1/20万、1/25万、1/50万、1/500万地质图;

____(2) 1/50万、1/20万矿产图;

____(3) 区调重砂;

____(4) 水系沉积物。

____3. 水文地质

____水文图:由工程环境、灾害、简化地质图构成。

____4. 物化探

____(1) 化探数据库(1/20万);

____(2) 航磁数据库(1/20万);

____(3) 重力数据库(1/20万)。

____5. 遥感数据库

____(1) 遥感解释图;

____(2) 影像文件。

____6. 矿产专业库

____(1) 钻孔数据库;

____(2) 储量库。

____7. 地层库

____在图层划分中,特别要注意解决多义性问题。例如,一条断层既可以出现在断层的图层中,也可以作为地质界线出现在地质界线的图层上。在建立多源地学GIS数据集时,要保证不同图层的相同弧段具有相同的地理坐标。在多源地学不同图层中,为了确保有效的模拟和分析,不允许使用自动编辑工具,而应对其它图层中的复制弧段进行重复和编辑。多义性解决方法除了采用相同的弧段复制到派生的图层外,在图层划分中比较好的方法就是采用主要图层,然后可通过空间运算产生派生图层。

____GIS的数据模型包含单独空间数据与属性数据。空间数据包含几何及拓扑数据,几何数据即空间坐标、高度、面积,拓扑数据即空间特征的几何关系。由点线面来描述基本空间特征,三种数据模型通常也是多源地学信息系统的基本数据模型。但这种数据对于空间分析和建模能力是相当有限的。建立多源地学信息系统的目的如果仅局限于自动制图的表示方法,那么无法满足解决复杂地学问题的需要。因此还需要用一些高级空间特征来建立新的地学模型数据,这些数据模型非常适合有关地学在网络分析和空间扩散方面的研究。

____(1) 区划或区域(Region):定义为一组相互不重复的多边形,用于描述具有相同属性单元的不连续多边形,如同一岩石地层单位、同一构造单元等。

____(2) 事件(Event):定义为基于基本线特征基础上离起点或终点有一定距离的一点。它有线性文件、连续事件和点事件三种文件类型,如可用连续事件描述地质剖面或钻孔线上的地质体,用点事件来描述沿某一水系某一位置上发现水系沉积物某一元素异常,用线性文件来描述某一断层与有关有利成矿的地层单位及相关地质体等。

____(3) 路径(Route):定义为基本线性特征基础上的路由,如对某一河段和控制断面的不同污染具有不同的浓度分布。

____上述数据模型是基于空间特征进行描述的,因此在图层划分、属性表建立及数据采集时都必须满足这种空间特征的特点。

____另一方面,在多源地学信息综合时,还要充分考虑到基于面上系统采样的数据,如化探、物探数据。这些数据在建模时,不用各种计算的中间结果来代替原始数据,进入到GIS数据集中(如把代替网络化的数据转化成等值线),这样会丢掉大量原始信息,对今后空间分析是极为不利的。但在建立数据模型时还要考虑以下几个方面的因素:

____(1) 空间信息表示的统一性与独立性;

____(2) 属性结构的统一性与独立性;

____(3) 基本属性与外挂属性的确定;

____(4) 数据结构的独立性;

____(5) 可视性与分析应用的统一;

____(6) 代码与国标码的统一与独立。

____二、多源信息编码与设计

____应该说多元信息的编码属于数据采集标准的范畴,但这里强调的编码着重于面向图示多源信息的编码。除了标准化基本要求外,不重新编码就能适用于不同的GIS平台,特别是支持图示的各种库如符号库、线型库、包标库等的编码。由于不同GIS平台数据模型和结构不同,因此数据模型设计时要给予充分的考虑。通常数据采集一般不具备二次再采集的可能性(主要是资金问题)。因此编码是数据交换的基础,也是提高数据利用程度的重要途径。

____ARC/INFO Unix/NT 版是功能最为强大的专业GIS产品,其许多先进设计思想和概念被其它产品借鉴和采纳,成为引导全球GIS发展的旗帜。在ARE/INFO的每一个Coverage中 ,可以选用自己的符号库、色标库等。这些库的编码只能从0~999编号,也就是说把多源信息组合成一个无缝专题可以有多个相应的库支持显示和输出,而在其它一些GIS平台如 MAPGIS等,则是一种类型只用一个库来支持,而相应的编码自然超过999。因此同一数据在不同平台的应用,需要花费大量时间进行编码转化,特别是编码原则不一样还可能造成混乱和随意性,对标准化极为不利。

____另一方面,许多提供的数字数据集没有足够的文档即元数据,也可能给编码的转换造成困难,使宝贵的资源数据受到了很大约束。针对这一情况,在多源信息的编码中,要充分考虑到不同平台的特点,特别是要考虑专业GIS产品的设计思想。在编码过程中,应根据多源性和图示的统一性的特点来设计。

____1. 面向不同GIS平台图示的编码内容

____(1) 属性字段的编码;

____(2) 地物符号的编码;

____(3) 颜色的编码;

____(4) 网纹的编码。

____2. 编码设计

____根据多信息的特点,首先参照国标将图层分类,将编码纳入国标的系统之内,然后编子类。目的是不能让某一类的编码值超过999。这些编码将作为每一图层的属性输入。不同的GIS平台可事先根据编码建立相应的库,这样就可以在不同GIS平台中直接应用,虽然会出现某子码重复,但是在不同图层中,例如,在地质多源信息系统中,不同的地层界线与地物界线在图层划分中是不可能划在同一层中的,因此可以把地质界线和地物界线各自进行编码。

____三、数据采集技术

____GIS的质量和集成各种数据集的能力直接与可以组合的数据的质量、数据采集和数据集成初始阶段的细致程度成正比。如果仅仅从制图的角度或图示的要求进行数据采集,那么GIS 分析功能只能局限于对图形特征相互之间的拓扑关系的分析、空间叠加、建立该冲区的简单方法,而对于复杂的环境分析、决策分析、过程模拟的能力则非常有限,远远不能满足解决复杂地学问题的需要。

____在环境分析中,常常需要了解水环境污染情况,根据污染区所处的位置,追踪与污染区有关的上游河流,可以找到污染源。同理,根据污染源,追踪与污染源有关的下游河段,可以确定受到污染的范围。在利用地理信息系统进行河流污染的空间显示和分析中,污染物质的扩散距离与动态地显示某河段各分段的不同污染浓度的变化是两个要解决的关键问题。如果我们在ARE/INFO地理信息系统中,采用传统的弧节点的数据模型,在数据采集上不考虑采集的方向,那么这种数据模型对模拟具有静态线性特征和动态线性特征都无能为力,这是因为河段中不同分段的污染物浓度是变化的,而且水流方向也是控制污染变化的一个因素,要解决此问题就要求采用动态分段数据模型。该模型能够将多个属性与某一线性特征的任何部分相关联,实现对河流等线性特征及其相关属性的存储、显示、查询和分析。要使该数据模型能够在空间分析方面得到正确的结果,那么数据采集方法就显得格外重要。它要求数据采集人在数字化过程中顺着河流的方向进行采集,在每一个汇合点需有一个节点,这样才能保证数据模型的正确。该技术可应用于公路、河流、铁路、各种管网等具有线性特征的数据收集。

____在多源地学信息研究中,通过属性与把代表地质界线和线性特征的线如断层、单个地质多边形相联系,以进行综合分析。要实现这一目标,基于制图的数据采集方法远不能胜任,因此不仅要考虑地质界线、传统的位置、精确或大致的分级,而且还要表明这些界线如渐变的、突变的和不整合的特征等;在数据采集时,还需考虑对地质界线(弧)方向进行标记,以表示地质界线的哪一侧是新的或者老的单元。对于断层来说,通过弧段的方向表示断层那一侧是上升的或下降的。另一方面,在地学GIS系统中,对断层的分析通常是测量断层总长度,以帮助识别主要的断层体系。然而,大多数GIS系统只测量两节点间线性要素的长度。

____在数字化一条断层时有两种方法:一种是分割方法,即一条断层由多个线段组成。

____另一种方法采用不分割方法,即两个端点之间由VERTEX点构成,不分割断层的弧虽然可以得到长度,但至少有两个缺点:首先除非断层是线性的并在方向上没有重大变化,否则按照方向来区分它是很困难的;如果节点被消除,并且断层在方向上有重大变化,那么计算出的方向将不代表断层的方向。在一些矿床评价中断层的方向通常是一个关键因素,特别是结构上被控制的那些矿床。基于这一原因,在数据采集中,对代表断层的弧段不采用"不分割"操作,并且代表某特殊断层的一组弧段最好具有能唯一识别该断层的共同属性。大多数GIS软件都提供了一种可供选择的功能,能够把相关的线性要素定义为ROUTE,ROUTE很容易使代表一条断层的所有弧段被组合到一起,于是代表断层的组合弧段的全长能被计算出来。要得到正确的断层信息,采用的数据采集的方法很重要。

____综上所述,面向GIS空间分析的数据采集明显不同于制图数字化过程,所采集的数据应满足空间分析数据模型的要求。

____四、元数据

____由于地理信息系统的应用涉及到多种信息的综合,因此除数据采集外,不可避免地要利用几十年以前及现在仅为数字制图或电子地图而花费大量人力、物力和资金积累起来的数据。而这些数据是由不同单位为了不同目的按不同的格式采集的。由于比例尺不同 ,投影方式不同,数据采集的精度不同,利用现存信息变得十分复杂,解决这些问题已成为 GIS应用的一项重要内容。

____上述问题已引起了国外的广泛重视,进而提出了元数据的概念。元数据在GIS数据模型采集与集成中发挥着重要的作用,是数据交换的基础,也是数据质量的保证。

____元数据(Metadata)是描述数据的数据,包括数据的内容、质量、条件和其它特征。元数据可以分为两大类:一类是管理元数据,它是对源数据及内容、主题、数据转换及各种操作信息的描述;另一类是用户元数据(User Metadata),它帮助用户查询信息、理解信息、了解这些数据的组织方式等。

____下面是元数据的一个例子,它定义构造图层的一个属性表。

____逻辑名:构造

____定义:断层线

____物理名:FAULT.GL

____数据格式:DBF

____图幅标识符:C,20

____可信度:C,10

____断层类型:C,10

____断距:N,10

____下降度:C,10

____岩性地层单元:C,20

____对于表中的每个属性项还应有类似的元数据描述。元数据就相当于数据库系统中的数据字典,但由于地理信息系统与数据存在很大区别,因此,元数据在GIS应用中是数据交换的基础,在GIS数据模型的建立中发挥着重要作用,也是保证数据长期有效的基础。

____在多源地学综合地理信息系统中,元数据要求描述的内容包括以下几个方面:

____(1) 数据集是在那个软件中建立的及其格式;

____(2) 数据类型是单精度还是多精度;

____(3) 坐标的类型及其相当的控制参数;

____(4) 比例尺;

____(5) 数字化方法是扫描矢量化还是数字化;

____(6) 某一图层是通过多个图层得到一个图层,应对这些图层进行说明;

____(7) 属性定义;

____(8) 代码说明;

____(9) 用于高级数据模型的矢量化采集说明;

____(10) 数据采集时间和数字化时间。

____另一方面,矿产资源评价、多源地学信息的管理、区域地质调查、水资源调查、环境与灾害的评价等方面数据资源要在GIS应用中发挥最大的作用,确实需要一种标准来帮助用户进行元数据信息交换,元数据标准可以保证共享数据的一致性。而数据共享领域的某些趋势说明,GIS中对元数据标准需求正逐步增加。数据模型处理的对象由传统的字符型和数值型扩展到多种媒体类型,专用数据扩展到支持多个部门或领域共享的数据,各个专业的数据格式向公共开放标准元数据交换格式转换,以提高信息的流通能力,扩大市场份额。

____多源地学信息系统研究和发展需提供开放的元数据标准,即交换标准和元数据标准。交换标准是首要的,元数据标准是必需的。目前我们承担的国土资源部多源地学综合信息系统项目中,就包括这一标准的研究。

____五、结论

____随着面向多源地学信息的GIS系统的推广应用,面向GIS集成和分析数据的性能现在已克服了由可以组合的原始数据的数据模型造成的局限性。通常,数据模型、数据质量与采集和记录这些原始数据的各种方法有关。在多源地学信息系统数据模型的采集与集成的研究中发现,在数据采集初期的细心程度,将决定数据的有效性(如针对某一数据模型要求进行数据采集才能保证数据的有效性)和不同专题之间的一致性,也最终决定了集成GIS数据集的质量,而这些数据的质量反过来又影响了数据集在成矿分析中的有效性。有效性是建立在正确数据模型数据转换和数据存储方面的统一的标准之上。如果现在从事地学领域GIS研究的各个部门和人员都能注意和解决这些问题,那么,建立全国的数字地学数据集多源地学信息系统将是可望达到的目标。这些数据资源将使地学界为解决一些重大问题如环境、农业、资源等方面的问题将发挥更大更有效的作用。