xwhsky's blog

考虑风向的GTWR

GTWR模型简介

一个回归问题

PM2.5数据的回归模型

简化为

OLS模型

在线性回归中,对于公式。

包含p个自变量,n条样本记录。

根据最小二乘法则,可得到

由此,

其中,$H=X (X’X)^{-1}X’$ 称作为n*n的对称矩阵,也是幂等矩阵。

GWR模型

相比于OLS模型,改变了对于$\beta$的定义,认为$\beta$在每个位置都是不一样的,即

参照最小二乘原理,可得到

其中,这里的帽子矩阵为

空间权函数

W称作空间权函数,在样本点i上,都有其他所有点对i点的影响力,有距离阈值法、距离反比法、Gauss函数法、截尾型函数法等。总体都是随着距离而递减的函数,区间在[0,1]。

gwr_kernel

以某个权函数为例(高斯函数下图),带宽BandWidth的取值至关重要。

gwr_one_kernel

  • 当带宽选取过大,即曲线很胖,则点周围大部分数据都具有较强的影响力,到无穷大时正好是OLS的模型。
  • 当带宽选取过小,即曲线很瘦,则点周围大部分数据都不具备影响力,到无穷小是则每个点的影像取决于自己,此时$R^2=1$产生过拟合现象。

或者可以说:带宽过大回归参数估计的偏差过大,带宽过小又会导致回归参数的方差过大。

因此,不能通过R2最大化来寻找带宽值,而需要找到优化指标。有CV、AIC、BIC等。最常用的是AIC。

AIC准则

在gwr中,即为

其中,$\hat\sigma$表示估计标准差,公式为

值很相近,因此除数可以该做 s表示帽子矩阵。 表示矩阵的迹。

GTWR模型

GWR考虑了数据空间上的影响,利用空间权函数W表示不同相邻空间距离间数据的影响力大小。

GTWR在此基础上,考虑数据在时空上的影像,将W改进为不同相邻时空距离间数据的影响力大小。

除此之外,没有任何区别。

因此,假设实现代码的话,只需要在对距离的定义函数上,从原先的空间距离dx+dy上,改成dx+dy+dt。

而时间和空间的尺度不一致,所以需要一个时空比例的参数Scale来衡量两者的权重大小。

Scale的确定

选取scale的区间,遍历任意一个scale,根据AIC准则获取最优带宽,从而得到R2。

依次遍历scale,获取R2最大下的scale。如下图所示。

gtwr_time_spatial_scale

延伸

分析以上对线性模型的使用和改进,是针对GIS数据的特点,从传统的OLS模型,到考虑空间异质性,再到时空异质性的变化。

而对于异质性的研究,当前都是基于GIS第一定律:距离越近的越相似,距离越远的越不相似。可见,目前的研究改进主要集中在对距离概念的变换上。

但是,目前来说,对于距离各个方向都是均值的,即各向同性。如上述的每个空间权函数。

而实际上很多时候是各向异性的,需要考虑不同方向下的不同影响力。

风向影响就是一个很好的例子,对于空气污染扩散和蔓延来说,风向风速是既有影响力的相关因子,而简单地将WIND参数当做自变量放到线性模型中,往往无法获得较好的拟合结果,甚至相关性会非常差。

因此,需要考虑如何将风向影响结合到线性模型中,对于GWR及GTWR来说,风向对各个点产生的各向异性的影响力,就是一个可行的解决思路。