正所谓“无米难为炊”,对GIS而言,数据才是王道。GIS数据按照数据结构可分为矢量数据和栅格数据,那么本期我们就一起学习关于矢量数据和栅格数据的一些知识。
矢量强调了离散现象的存在,由边界线(点、线、面)来确定边界,因此可以看成是基于要素的。矢量数据模型将现象看作原形实体的集合,且组成空间实体。在二维模型内,原型实体是点、线和面;而在三维中,原型也包括表面和体。观察的尺度或者概括的程度,决定了使用的原型的种类。
多边形
矢量模型的表达源于原型空间实体本身,通常以坐标来定义。一个点的位置可以二维或者三维中的坐标的单一集合来描述。一条线通常由有序的两个或者多个坐标对集合来表示。特定坐标之间线的路径可以是一个线性函数或者一个较高次的数学函数,而线本身可以由中 间点的集合来确定。一个面通常由一个边界来定义,而边界是由形成一个封闭的环状的一条或多条线所组成。如果区域有个洞在其中,那么可以采用多个环以描述它。
矢量数据结构
栅格数据模型是基于连续铺盖的,它是将连续空间离散化,即用二维铺盖或划分覆盖整个连续空间;铺盖可以分为规则的和不规则的,后者可当做拓扑多边形处理,如社会经济分区、城市街区;铺盖的特征参数有尺寸、形状、方位和间距。对同一现象,也可能有若干不同尺度、不同聚分性(Aggregation or Subdivisions)的铺盖。在边数从3 到N的规则铺盖(Regular Tesselations)中,方格、三角形和六角形是空间数据处理中常用的。三角形是 基本的不可再分的单元,根据角度和边长的不同,可以取不同的形状,方格、三角形和六角形可完整地铺满一个平面。
三角形、方格和六角形划分
基于栅格的空间模型把空间看作像元(Pixel)的划分(Tessellation),每个像元都与分类或者标识所包含的现象的一个记录有关。像元与“栅格”两者都是来自图像处理的内容,其中单个的图像可以通过扫描每个栅格产生。GIS 中栅格数据经常是来自人工和卫星遥感扫描设备中,以及用于数字化文件的设备中。采用栅格模型的信息系统,通常应用了前面所述 的分层的方法。在每个图层中栅格像元记录了特殊的现象的存在。每个像元的值表明了在已知类中现象的分类情况。
栅格数据模型
Shapefile是最常见的的矢量数据格式,Shapefile文件是美国环境系统研究所(ESRI)所研制的GIS文件系统格式文件,是工业标准的矢量数据文件。 所有的商业和开源GIS软件都支持。无处不在的它已成为行业标准。Shapefile由三个必须的文件组成:- 下面的是可选文件,需要注意的是,一般情况下,PRJ为必须完整的,否则矢量数据的空间位置会发生错误:
Geographic JavaScript Object Notation (GeoJSON)格式:.GEOJSON、.JSON
GeoJSON格式主要用于基于Web的映射。GeoJSON以JavaScript对象符号(JSON)形式将坐标存储为文本。这包括矢量点,线和多边形以及表格信息。GeoJSON将对象存储在花括号{}中,并且通常语法标记更为简洁(与GML相比)。GeoJSON具有简单的语法,您可以在任何文本编辑器中进行修改。网络地图浏览器可以理解JavaScript,因此默认情况下,GeoJSON是一种常见的Web格式。但是JavaScript只理解二进制对象。幸运的是,JavaScript可以将JSON转换为二进制。
Geography Markup Language (GML)GML允许使用XML的地理坐标扩展。可扩展标记语言(XML)是人类可读和机器可读的。GML以文本形式存储地理实体(功能)。与GeoJSON相似,可以在任何文本编辑器中更新GML。每个要素都有属性,几何(点,线,曲线,曲面和多边形)和空间参考系统的列表。与GeoJSON数据相比,GML存储相同数量的信息产生的数据量更大,更占空间。
Google Keyhole Markup Language (KML/KMZ)格式:.KML、.KMZ
KML 是由开放地理空间联盟(Open Geospatial Consortium, Inc.,简称 OGC)维护的国际标准。
KML 是Keyhole Markup Language的缩写. 这个数据格式是基于XML的,一般被Google Earth使用,KML是由Keyhole公司开发的,后来被谷歌收购。KMZ (KML-Zipped) 代替了KML,是KML的压缩版本,KML/KMZ在2008年成为地理空间联盟的国际标准。经纬度由十进制度的 World Geodetic System of 1984 (WGS84)坐标系统所定义,高程为WGS84 EGM96高程系。
GPS eXchange Format (GPX)GPX是比较标准的GPS信息交互文件,当然其他公司还有自己的格式。GPX采用XML语言,所以显得稍微有点臃肿,压缩后就很小了。
GPX, 或称 GPS exchange 格式, 是一种用于存储坐标数据的 XML 文件格式。它可以储存在一条路上的路点,轨迹,路线,且易于处理和转换到其他格式。OpenStreetMap 使用的所有 GPS 数据要转换为 GPX 格式才能上传。
GPX包含 带有正确时间戳的轨迹点。创建GPX文件,使用有效的schema. 如果包括编码标签,可以是’UTF-8’, 而不能是’utf8’。
IDRISI vector矢量数据文件具有VCT扩展名以及具有VDC扩展名的关联矢量文档文件。VCT格式仅限于点,线,多边形,文本和照片。创建IDRISI矢量文件后,它将自动创建用于构建元数据的文档文件。属性直接存储在矢量文件中。但是您可以选择使用独立的数据表和值文件。
MapInfo TAB
格式:.TAB、.DAT、.ID、.MAP、.IND
MapInfo TAB 文件是Pitney Bowes MapInfo软件的专有格式。与shapefile相似,它们需要一组文件来表示地理信息和属性。- TAB文件是ASCII格式,可链接关联的ID,DAT,MAP和IND文件。
- DAT文件包含与dBase DBF文件关联的表格数据。
OpenStreetMap OSM XML
格式:.OSM
OSM 文件是OpenStreetMap的本地文件,该文件已成为世界上最大的众包GIS数据项目。这些文件是来自开放社区的众筹贡献的矢量特征的集合。OSM是OpenStreetMap的基于XML的数据格式。更高效,更小的PBF(Protocolbuffer Binary Format) 格式 是基于XML的改进版。QGIS可以直接导入本地的OSM数据,OpenStreetMap插件可以将PBF转换为OSM在QGIS中使用。
Digital Line Graph (DLG)
格式:.DLG
数字线图(DLG)文件本质上是矢量,是在传统的纸形地形图上生成的。例如,这包括乡镇和范围,等高线,河流,湖泊,道路,铁路和城镇。很多U.S. Bureau of Census Topologically Integrated Geographic Encoding and Referencing (TIGER) 数据为标准的DLG格式。
Geographic Base File-Dual Independent Mask Encoding (GBF-DIME)
GBF-DIME文件格式由美国人口普查局在1960年代后期开发,是最早存在的GIS数据格式之一。它用于存储主要城市地区的美国道路网络,这是普查信息中的关键因素。GPF-DIME支持Choropleth映射,还有助于消除数字化特征的错误。DIME是由美国人口普查局生产的当前TIGER(拓扑集成地理编码和参考)系统的关键组件。
ArcInfo Coverage
ArcInfo Coverages 是一组包含了points, arcs, polygons or annotation的文件夹。Tics是控制点,用于帮助定义Coverage的边界。
属性存储在ADF或INFOb表中。每个功能部件都有一个唯一的编号。这些要素编号是将属性数据与每个空间要素链接的一种方式。Coverages 是软盘时代的标准格式。但是随着时间的流逝,这种GIS格式已经过时,并且在GIS软件中几乎不受支持。
DXF/DWG
dwg文件:*.dwg是AutoCAD的图形文件,是二维或三维图形档案。其与dxf文件是可以互相转化的。
dxf文件:*.dxf是Autodesk公司开发的用于AutoCAD与其它软件之间进行CAD数据交换的CAD数据文件格式。DXF是一种开放的矢量数据格式,可以分为两类:ASCII格式和二进制格式;ASCII具有可读性好,但占有空间较大;二进制格式占有空间小、读取速度快。由于Autocad现在是最流行的cad系统,DXF也被广泛使用,成为事实上的标准。绝大多数CAD系统都能读入或输出DXF文件。DXF文件可以用记事本直接打开,编辑相应的图元数据.换句话说,如果你对DXF文件格式有足够了解的话,甚至可以在记事本里直接画图。DWG的来绘图更直观(DXF图纸中线条的相交处都会有个小圆),而用于数控加工的图纸则必须是DXF文件(操机者必须把DWG转换成DXF后才可加工)如快走丝。dxf是工业标准格式的一种。所以这也是它们用途的区别。
autocad是一个非常优秀的绘图软件,已经融入到大学的课堂里,同时工业制造和很多设计行业都使用cad进行图纸的绘制,范围的广泛性就不做说明了。
对于文件本身的介绍上述应该就够了,这里补充一点dxf和投影的一些关系,即dxf在gis当中的使用原理:在CAD当中任何图形均由点、线、面图元组成,如CAD的直线、射线、多义线、Spline曲线、多边形、面域、填充面等,由线性组成的图元在DXF文件记录中表现为以点或线的拐点、或曲线的控制点、拟合点坐标记录形式[2],读取、处理这些图元坐标数据无需特别处理,只要读取坐标数据转换即可。常规:因此很多和规划以及地图相关的CAD文件,CAD的图框上大多相关的地理和投影坐标信息,一般在左下角会有投影坐标信息,比如北京1954坐标,图框的格网线附近还会有相应的分带,带号信息,找到这些信息以后,就可以进行投影定义了。对于投影的定义,推荐使用.prj文件。如何确定prj文件当中所需的投影信息,如何确定EPSG号,等更多关于CAD当中配置prj文件的详情参考【使用LocaSpaceViewer编辑规划用的CAD文件,配置CAD文件投影信息】如果以上信息都没有,那就只能是硬加载然后进行平移操作了。这个过程当中如果最终结果和gis数据无法套和或者差距甚远,大多是转换过程当中出了错误。
lgd/ldl
对于lgd文件,很多人可能会比较陌生,很多人可能用了,但也并不知其所以然,这里也稍加解释。lgd文件和ldl文件是配套的,是一个矢量数据存储交换格式。
a.支持点、线、面、圆形、矩形、椭圆、军标、水面、粒子特效等矢量数据。
b.二进制流文件,体积小,压缩比高,可适用于pc、移动端等,在pc和移动端做数据交互。
c.有自己的内置索引文件,查询、检索效率极高。且可用于服务器数据发布(和LocaServer配套使用)
ERDAS Imagine (IMG)
ERDAS Imagine IMG 文件是Hexagon Geospatial开发的专有文件格式。IMG文件通常用于栅格数据,以存储单个和多个波段的卫星数据。IMG 文件使用一种hierarchical format (HFA) 该格式是可选的,用于存储有关文件的基本信息。例如,这可以包括文件信息,地面控制点和传感器类型。作为IMG文件一部分的每个栅格图层均包含有关其数据值的信息。例如,这包括投影,统计,属性,金字塔以及它是连续还是离散类型的栅格。
American Standard Code for Information Interchange ASCII Grid
ASCII 使用一组介于0到255之间的数字(包括浮点数)进行信息存储和处理。它们还包含带有一组关键字的头文件。在本地存储格式中, ASCII 文本文件存储使用一种分隔符(逗号,空格,TAB等)格式存储GIS数据。你可以利用一个转换工具如ASCII to raster将非空间数据转换为空间数据。
GeoTIFF
已成为GIS和卫星遥感应用的行业图像标准文件。GeoTIFF可以有其它附件:OVR存储影像金字塔,用于快速的访问和影像显示缩放。
IDRISI Raster
IDRISI 将RST扩展分配给所有栅格图层。它们由数字网格单元格值组成,这些值包括整数,实数,字节和RGB24。栅格文档文件(RDC)是RST文件的随附文本文件。他们将列和行的数量分配给RST文件。此外,它们还记录文件类型,坐标系,参考单位和位置误差。
Envi RAW Raster
Band Interleaved files 是一种存储航空和遥感单波段或多波段栅格影像的格式。Band Interleaved for Line (BIL) 根据行存储所有的像素信息;Band interleaved by pixel (BIP) 按像素存储;Band sequential format (BSQ) s按波段存储。BIL包含一个头文件(HDR),该头文件描述了图像中的列,行,带,位深度和布局的数量。
PCI Geomatics Database File (PCIDSK)
PIX格式是由PCI Geomatics开发的一种栅格格式。这是一种灵活的文件类型,图像和辅助数据存储在一个称为“Segments”的独立文件中.例如,“Segments”可以包含投影,属性信息,元数据和图像/矢量。
Esri Grid
Grid文件是一种Esri开发的专有格式。Grid文件没有拓展名,而且是一种独一无二的可以存储属性数据的栅格文件格式,但是它只能给Integer类型的文件添加属性。属性数据存储在value attribute tables (VAT) 中 网格中每个唯一值的一条记录,其计数表示格网网格的数量。Esri Grid文件可以为integer(整型)和floating point(浮点型)。 土地覆盖是离散网格的示例。每个类都有一个唯一的整型格网值。高程数据是浮点型网格的示例。每个像元代表一个高程浮点值。
lrp
lrp格式,影像、地形数据存储格式。很多使用过LocaSpaceViewer的人,应该已经见识过他的好处了。b.二进制流文件,根据不同的数据类型使用不同的压缩算法,体积小。c.自带分级(LOD)有自己的内置索引文件,查询、检索效率极高。且可用于服务器数据发布(和LocaServer配套使用)
ER Mapper Enhanced Compression Wavelet
ECW 是一种压缩图像格式,通常用于航空和卫星图像。这种GIS文件类型以其高压缩比而著称,同时仍保持图像的质量对比度。ECW由ER Mapper公司开发, 但是现在属于Hexagon Geospatial公司。
Joint Photographic Experts Group JPEG2000
JPEG 2000通常有一个JP2的文件拓展名。它们是最新的JPG格式的小波压缩,提供有损或无损压缩选项。JPEG 2000格式需要一个世界文件,该文件可以为您提供栅格地理定位。由于有损压缩,它们是背景图像的最佳选择。JPEG 2000可以实现20:1的压缩率,这与MrSID格式相似。
LizardTech Multiresolution Seamless Image Database MrSID
LizardTech专有的MrSID 格式一般用于存储需要压缩的正射影像。MrSID图像具有SID扩展名,并带有文件扩展名为SDW的世界文件。MrSIDs具有令人印象深刻的压缩率。彩色图像的压缩比可以超过20:1。LizardTech的GeoExpress是能够读取和写入MrSID格式的软件包。
ASPRS LiDAR Data Exchange Format
格式:.LAS,、.LASD,、.LAZ
LAS文件格式是一种二进制文件格式,专门用于供应商和客户之间的互换。总体而言,LAS文件保留了特定于LIDAR的信息,而不会丢失信息。LAS文件可供公众使用,与ASCII和其他专有文件格式不同。有时坐标点测量的密集网络是如此之大,以至于经常需要对它们进行分割以防止文件太大。压缩LAS文件时,专用于此的文件格式为LAZ。您可以使用LAZ文件格式节省大量存储空间。像大多数文件压缩一样,LAZ没有信息丢失。最后,LAS数据集(LASD)引用了一组LAS文件。LASD的目的是能够从引用的LAS文件中检查3D点云属性。通过LAS数据集,您可以可视化三角化的曲面并执行统计分析。
Point Cloud XYZ
XYZ文件没有存储点云数据的规范。前3列通常代表X,Y和Z坐标。但是没有标准规范,因此可能包括RGB,强度值和其他LiDAR值。它们位于文件格式的ASCII点云组中,其中包括TXT,ASC和PTS。像XYZ这样的非二进制文件是有优势的,因为它们可以在文本编辑器中打开和编辑。↓↓↓点击下方“阅读原文”查看更多精彩内容...