Mobile QR Code QR CODE : Journal of the Korean Society of Civil Engineers

  1. 연세대학교 대학원 건설환경공학과 박사과정 (Yonsei University)
  2. 연세대학교 대학원 건설환경공학과 통합과정 (Yonsei University)
  3. 연세대학교 대학원 건설환경공학과 통합과정 (Yonsei University)
  4. 연세대학교 건설환경공학과 교수 (Yonsei University)


항공정사영상, Landsat 8, Residual U-Net, 토지피복지도 자동 제작
Aerial ortho photo, Landsat 8, Residual U-Net, Automatic land cover map generation

  • 1. 서 론

  • 2. Residual U-Net 신경망을 이용한 토지분류 자동생성 모델 제작

  •   2.1 Residual U-Net 신경망

  •   2.2 분류 대상 정의 및 토지분류 자동생성 모델 제작

  • 3. 연구 대상지 및 실험 데이터

  •   3.1 연구 대상지

  •   3.2 Landsat 8 다중 분광 영상

  •   3.3 항공정사영상

  •   3.4 환경부 토지피복지도

  •   3.5 학습 및 평가 데이터 제작

  • 4. 실험 결과

  • 5. 결 론

1. 서 론

환경부에서는 인공위성으로 촬영한 영상을 활용하여 지표면의 분포를 확인할 수 있는 토지피복지도 제작 사업을 추진하고 있다 (National Environment Information Network System, 2019). 1998년 시범사업을 시작으로 전국에 대해 대분류(7항목), 중분류(22항목), 세분류(41항목) 데이터를 지속해서 구축하고 있으며, 다양한 위성으로부터 촬영된 영상과 항공 사진을 이용하여 지도의 제작 및 갱신이 이루어지고 있다. 다양한 분야에 활용이 가능할 정밀도의 고품질 자료이지만, 다양한 사유들로 인해 지도의 제작 및 갱신 주기가 불규칙하고 심지어 권역별로도 제작 시기가 다르다는 문제점이 있다(Jo et al., 2019). 실제, 환경공간정보서비스를 통해 신청할 수 있는 토지피복지도 목록을 검토해보면, 중분류의 경우, 전국에 대해 구축된 것은 2000~2004년, 2007년에 제작된 2건이 마지막으로 그 이후에는 일부 권역이 제외되었거나 수도권에 대해서만 구축된 것이 전부이다. 또한, 세분류 데이터의 경우에도 제작에 활용된 위성영상과 항공사진의 촬영 시기가 2010년에서 2018년까지로, 최초 구축된 지역과 마지막으로 구축된 지역 간 무려 9년이라는 시간 해상도 차이가 존재하는 것으로 확인되었다.

현재의 토지피복지도를 이용하여 전국 단위의 분석을 진행하였을 경우, 지역 간 시간 해상도 차이가 너무 커 분석 결과의 신뢰도를 저하할 가능성이 매우 크다. 한편, 지도 제작 사업은 도화사와 같은 전문가가 장기간 투입되어야 하며 위성영상이나 항공사진을 얻기 위한 예산을 확보해야 하는 등 다양한 사유로 인해 추가적인 지도 제작 또는 잦은 갱신을 기대하는 것은 현실적이지 못하다. 따라서 신뢰할 수 있는 수준에서 토지피복지도를 자동으로 제작하거나 갱신할 수 있다면, 그 활용도는 매우 높을 것이다.

자동 생성된 토지피복지도의 활용성을 증진시키기 위해서는 제공되는 데이터와 동일한 형태로 생성되는 것이 중요하므로, 영상에서 대상을 탐지하는 동시에, 그 대상의 경계 정보를 함께 추출할 수 있어야 한다. 이를 위해서는 딥러닝 기반의 세그먼테이션 기법을 사용하는 것이 유리한데, 이 중 하나인 U-Net은 2015년에 처음 발표되어 세포의 경계를 추출에 사용되어 92 %의 높은 분류 정확도를 가지는 것으로 발표되었다(Ronneberger et al., 2015). 이후, U-Net은 다양한 형태로 개량되어 원격탐측 분야에도 활용되기 시작했는데, Ghosh et al.(2018)은 Dilated Stacked U-Net을 개발하고, 학습데이터로 Deepglobe의 위성영상을 사용하여 토지피복을 분류하였을 때, 최대 50.7 %의 분류 정확도를 가지는 것으로 나타났다. Seo et al.(2019)은 Deep U-Net을 개발하여 항공사진과 GIS 건물통합정보를 학습데이터로 사용하여 단독주택과 그 외 건물로 단 두가지 항목만을 추출하였는데, 각각 76.1 %와 89.1 %의 정확도를 추출하는데 그쳤다 이후, 정확도를 더 향상시키기 위한 방안으로 잔차 신경망이 삽입된 Residual U-Net이 개발되었는데, 개량형 U-Net에 비해 높은 분류 정확도를 가지는 것으로 나타나 다양한 연구에서 활용된바 있다(2.1절 참고).

딥러닝 기법은 높은 분류 정확도를 자랑하는 동시에 학습에 사용된 데이터와 전혀 다른 데이터를 입력하면 안정적인 결과를 얻을 수 없다는 단점이 있다. 이는 학습 이력에 없는 내용물이 담긴 데이터를 추정 모델에 입력하거나, 육안으로는 동일해 보이더라도 데이터 제작에 사용된 장비가 다른 경우 발생한다. 따라서 지속적이고 안정적으로 확보할 수 있는 데이터를 활용하여 추정 모델을 개발하는 것이 모델의 활용도를 높이는 방안이 될 것이다.

이러한 관점에서 Jo et al.(2019)는 짧은 재방문주기(5일)로 지속적인 관측이 가능한 Sentinel-2 광학 위성영상을 학습데이터로 선정한 연구 사례가 있었으며, 입력한 영상에 대한 대표 분류명을 예측하는 모델을 제작하였다. 촬영 시기에 따른 반사도 차이를 모델에 반영하기 위해 2018년 6월부터 11월 초 사이에 촬영된 영상을 모두 확보하여 학습데이터를 제작하였는데, 그 이외의 날짜나 계절에 촬영된 영상이 입력되면 명확한 분류가 이루어지지 않을 가능성이 크며 지도의 형태로 제작되는 모델이 아니기에 활용 확장성에 제한이 있을 것으로 보인다. Lee and Kim(2019)은 국가기본도 갱신 사업을 통해 2년 주기로 제작되고 있는 항공정사영상을 학습데이터로 활용하였는데, 지도의 형태로 제작할 수 있는 SegNet 신경망을 연구에 사용하였다. 농지, 산림, 수역, 시가화·건조지역에 대해 각각 87.89 %, 87.18 %, 83.66 %, 82.67 %로 총 85.48 %의 전체 분류 정확도를 확보한 것으로 발표되었는데, 높은 공간해상도를 사용하였기에 세밀한 지도 표현이 가능하나, 모델의 사용성을 확장하기 위해 분류 대상의 개수를 증가시키는 등의 추가 연구가 필요할 것으로 판단된다.

본 연구에서는 고해상의 공간해상도를 가진 항공정사영상과 높은 분광해상도(Spectral resolution)를 가진 Landsat 8 위성영상을 학습데이터로 활용하여, 토지피복지도를 자동으로 생성하는 모델을 제작하는 연구를 수행하였다. 딥러닝 세그먼테이션 기법의 하나인 Residual U-Net을 활용하여 원하는 대상을 분류하고, 그 경계 정보를 함께 추출하였으며, 학습시킨 모델을 통해 제작된 지도에 대한 정확도 평가를 진행하였다.

2. Residual U-Net 신경망을 이용한 토지분류 자동생성 모델 제작

2.1 Residual U-Net 신경망

초기 딥러닝 모델에서 사용한 역전파(Backpropagation) 기법의 특성으로 인해 깊은 신경망을 구성하더라도 학습이 제대로 이루어지지 않아 정확도 향상에 큰 도움이 되지 않는 문제가 있었으나, ResNet의 개발로 인해 깊은 신경망을 구성하더라도 분류 정확도를 향상시키는 것이 가능하게 되었다(Szegedy et al., 2017). 신경망 사이사이에 별도의 신경망을 추가한 뒤 이를 합산(Summation)으로 서로 연결하여 잔차의 개념을 구현한 것으로, ResNet으로 학습을 진행하면 잔차를 최소화하는 방향으로 학습이 진행되어 안정적인 모델 제작이 가능하게 된 것이다. 이에, U-Net 신경망에도 ResNet의 잔차 개념을 적용하기 위한 시도가 있었다. Filin and Zapara(2018)은 EOSResUNet을 개발하여 DeepGlobe의 위성영상으로 제작한 학습데이터를 이용하여 도로를 추출하는 연구를 수행하였다. EOSResUNet은 기존의 U-Net architecture와 거의 유사하나 연쇄가 아닌 서로의 합산으로 신경망을 구성한 것이 차이점이며, 최종 정확도는 55.96 %로 나타났다. EOSResUNet과 유사한 구조이지만, ResNet-34 신경망을 통해 사전에 학습시켜 놓았던 가중치를 사용한 연구도 있었으나, 최종 정확도가 64 %에 그쳤다(Buslaev et al., 2018).

Zhang et al.(2018)은 Residual U-Net을 개발하여 미국의 매사추세츠주 지역의 항공사진을 이용하여 도로를 자동으로 추출하였는데, 최종 91.87 %의 높은 정확도를 확보하는 데 성공하였다. EOSResUNet과의 결정적인 차이는 풀링(pooling)을 사용하지 않고 스트라이드(stride)를 사용하여 다운샘플링(down sampling) 효과를 낸 것이며, 다운샘플링이 진행되기 이전의 신경망 그룹마다 잔차에 해당하는 신경망을 삽입한 것에 있다. Xu et al.(2018)Zhang et al.(2018)이 발표한 Residual U-Net과 유사한 신경망으로 설계하여 위성영상으로부터 건물을 추출하였는데, 최대 98.16 %라는 높은 분류 정확도를 확보하였다. 두 신경망의 결정적 차이는 배치 정규화(Batch normalization)의 적용 여부에 있다. 배치 정규화는 신경망을 학습시키는 과정에서 합성곱 또는 활성화 함수(activation function) 단계를 거친 이후, 입력값의 분포가 변하는 문제를 해결하기 위해 개발된 방법이다. 입력값의 축척에 의한 영향을 최소화하여 빠른 학습을 가능하게 하고 신경망 전체에 안정성을 부여한다는 장점을 가지고 있다(Kampffmeyer et al., 2016). 비록, Xu et al.(2018)가 이를 반영하지 않고도 높은 정확도를 확보하였으나, 정확도는 학습데이터의 종류, 분류 대상 그리고 실험 지역에 따라 상이할 수 있으므로, 신경망 전체의 학습 안정성을 확보할 수 있는 배치 정규화를 삽입하는 것이 더 타당할 것으로 판단된다.

2.2 분류 대상 정의 및 토지분류 자동생성 모델 제작

대분류 토지피복지도는 Landsat 위성 영상을 기본으로 4m급 아리랑 2호 위성영상과 1:25,000 수치지형도를 참조자료로 활용하여 제작되었다. Landsat의 공간해상도가 30 m이기에 Landsat 위성 영상만으로는 대분류 항목이라 할지라도 정확한 분류가 어렵기 때문이다. 이에, 본 연구에서는 학습시킬 때 Landsat 위성 영상뿐만 아니라 추가 정보를 활용할 수 있도록 고해상의 항공정사영상을 함께 입력하였으며, 이를 통해 대분류뿐만 아니라 일부 중분류에 대한 자동 분류 가능 여부를 확인해보고자 하였다.

Table 1은 본 연구에서 수행한 실험군을 나열한 것으로, 기타 항목은 대분류를 사용하되 시가화·건조지역과 농업지만 중분류를 사용한 두 개의 실험군과 모두 대분류 항목만 사용한 실험군을 별도로 구성하여 실험을 진행하였다. 한편, 산림지역, 초지, 습지, 나지, 수역에 대해서는 대분류만 사용하였는데, 각 분류의 중분류에 해당하는 대상을 주어진 영상 정보만으로 분류하기에는 어려움이 클 것으로 판단하였기 때문이다. 예를 들어, 대분류 중 하나인 산림지역의 경우, 활엽수림, 침엽수림 그리고 혼합림으로 중분류 항목이 구성되어 있는데, 영상 상으로는 초록색의 나무라는 것 이외 육안으로도 해당 분류로 구분하는 것이 어렵다. 이를 명확히 구분하기 위해서는 현장 조사 정보 또는 초분광 영상 정도의 분광 해상도를 가진 별도의 참고 자료를 활용해야 가능할 것으로 판단되며, 그 외 초지, 습지, 나지, 수역도 산림과 비슷한 상황으로 여겨져 해당 항목들에 대해서는 대분류 항목을 사용하였다. Fig. 1은 분류한 각 실험군을 시각화한 것이다.

Table 1.

Land Cover Map Categories

Case Ⅰ Case Ⅱ Case Ⅲ
Residential area Used area Used area
Manufacturing area
Business area
Culture, Sports and Recreation area
Traffic area
Public facilities area
Agricultural area Paddy Agricultural area
Field
Plantation Facilities
Orchard
Other plantations
Forest area Forest area Forest area
Grassland Grassland Grassland
Wetland Wetland Wetland
Barren Barren Barren
Water Water Water
Total 12 classes Total 11 classes Total 7 classes
Figure_KSCE_40_05_10_F1.jpg
Fig. 1.

Land Cover Map for Each Case (1:5,000 Index Number: 36607001)

본 연구에서는 Zhang et al.(2018)이 사용한 Residual U-Net 신경망과 평균 제곱 오차(Mean Squared Error, MSE) 손실함수를 사용하였다. Fig. 2는 신경망의 구성도를 나타낸 것인데, 깊은 망이기에 성공적인 학습을 위해 잔차 신경망이 중간마다 삽입되어 있으며 활성화 함수를 적용하기 전 배치 정규화가 항상 배치된 것이 이 신경망의 특징이다. 한편, 하이퍼 파라미터(hyper parameter)와 학습 계수(learning rate)는 선행연구와 다르게 적용하였다. 학습 계수의 경우, 너무 큰 수치를 사용하면 빠른 학습이 가능하나 해에 수렴하지 못하게 될 가능성이 크고, 수치가 너무 작으면 학습의 속도가 느리고 해에 도달하기 이전에 학습이 종료될 가능성이 크다. 이를 해결하는 방법으로 과거 단계적 감쇠 방법이 제안되었다. 학습 초기에는 큰 수치를 주어 학습을 빨리 진행하게 하되 일정 학습 반복 횟수(epoch)가 되면 수치를 단계적으로 낮추어 빠르고 정확히 해에 수렴할 수 있도록 학습 계수를 설정하는 것이다. 본 연구에서는 지수적 감쇠(exponential decay) 방법을 적용하였는데, 사용자가 특정 단계에서 학습 계수를 줄이도록 임의 설정하는 단계적 감쇠가 아닌, 지수 함수를 따라 학습 계수가 초기에 급격히 감소하고 후반에는 천천히 감소하도록 하는 방법이다(Eq. (1)).

$$lr=lr_{i\;nit}e^{-k\times epoch}$$ (1)

여기서, l r 는 학습 계수, l r 는 초기 학습 계수, e 는 지수 함수, k 는 지수 함수의 승수, e p o c h 는 학습 반복 횟수를 의미한다.

Figure_KSCE_40_05_10_F2.jpg
Fig. 2.

Deep Residual U-net (Zhang et al., 2018)

Eq. (1)에서 지수 함수의 승수를 변화시킴에 따라 Fig. 3과 같이 학습 반복 횟수에 따른 학습 계수의 양을 조절할 수 있다. k 나 기타 하이퍼 파라미터는 반복적인 실험을 통해 학습이 더 진행될 가능성이 있는지 또한 손실함수(loss function)의 값이 충분히 수렴하였는지를 확인하여 최적의 값을 찾아내야 하는데, 적합하지 않은 값을 사용할 경우, 손실함수가 발산하거나 학습을 반복하여도 해에 근접하지 않는다. 값을 변경해가며 실험을 반복한 결과, k 는 0.02를, 초기 학습 계수는 0.05로 설정하였을 때 손실함수가 발산하지 않아 해당 값을 사용하였다. 또한, 학습 반복 횟수는 450으로 설정하되, 과적합(overfitting)을 막기 위해 일정 학습 반복 횟수 동안 학습에 진전이 없으면 자동 종료하도록 조기 종료(early stop) 기능을 삽입하였다. 최적화 알고리즘(optimizer)은 딥러닝 연구에서 많이 사용되는 Adam 알고리즘을 사용하였다.

Figure_KSCE_40_05_10_F3.jpg
Fig. 3.

Graph of Exponential Function with Variation of k

3. 연구 대상지 및 실험 데이터

3.1 연구 대상지

환경부에서 제공하는 세분류 토지피복지도 자료 제공 현황을 검색한 결과, 2014년 촬영된 항공사진과 아리랑 위성 영상을 바탕으로 대전시를 포함한 세종시와 충청남도 지역에 대한 토지피복지도가 제공되고 있다. 본 연구에서는 해당 지역 중에서 세종시를 기준으로 일부 청주시, 공주시 그리고 대전시를 연구 대상지로 선정하였는데, 이는 가능한 모든 분류 항목에 대한 데이터를 충분히 또 다양하게 확보하여 토지분류 자동생성 모델을 적절히 학습시키기 위해서이다(Fig. 4). 그림에서 보는 바와 같이 해당 지역은 도심지를 포함한 농업지역, 내륙 호수 그리고 산림 등 분류마다 다양하고 또 넓게 분포하고 있으므로, 토지분류 자동생성 모델을 학습시키기에 풍부한 정보 제공이 가능한 지역으로 판단되어 연구 대상지로 선정하였다.

Figure_KSCE_40_05_10_F4.jpg
Fig. 4.

Study Area based on Aerial Ortho Photo

3.2 Landsat 8 다중 분광 영상

USGS (United States Geological Survey) EarthExplorer에서 제공하는 Landsat 8 위성의 다중 분광 영상 중에서 위성 영상을 활용한 딥러닝 연구에서 가장 많이 활용되는 1번 밴드부터 7번 밴드의 영상을 모델 제작에 활용하였다. Landsat 8 위성 영상은 토지피복지도 내 다양한 항목을 분류하는 데 있어, 가시광선 영역 이외 적외선 영역과 같은 기타 정보를 신경망에 제공하여 분류 정확도를 높이기 위해 사용하였다. 다중 분광 영상에 대한 정보를 제공하기 위함이 주된 목적이나, 동시에 데이터 확보가 용이하고 반사도에 따른 영향을 보정할 수 있는 검증된 방법론을 제공하면서 잦은 재방문 주기로 많은 양의 영상을 확보할 수 있다는 장점이 본 모델의 향후 지속성에 큰 원동력이 되기에 해당 위성 영상을 사용하였다.

Table 2는 본 연구에 활용한 영상의 밴드별 사양을 나열한 것으로, 해당 기관에서 제공하는 사용자 설명서에 따라 영상의 DN (Digital Number) 픽셀값을 대기 상단(Top of the Atmosphere, TOA) 반사도(Reflectance)로 변환하여 사용하였다. 태양 고도 각(Sun elevation angle)을 고려함으로써 영상 촬영 시간 차이에 따른 반사도의 차이를 보정하기 위해 반사도로 변환하여 사용한 것이며, 이를 수행하기 위한 계산식은 Eq. (2)와 같다.

$$\rho_\lambda=\frac{M_\rho Q_{cal}+A_\rho}{\sin(\theta_{SE})}$$ (2)

여기서, ρ λ 는 밴드별 대기 상단 반사도, M ρ 는 밴드별 승수 조정 인자, A ρ 는 밴드별 가산 조정 인자, Q c a l 는 DN 픽셀값 그리고 θ S E 는 태양 고도 각을 의미한다.

Table 2.

Specification of Landsat 8 Satellite Sensor

Band # and Type Bandwidth (μm) Resolution (m)
Band 1 Coastal 0.43 - 0.45 30
Band 2 Blue 0.45 - 0.51 30
Band 3 Green 0.53 - 0.59 30
Band 4 Red 0.63 - 0.67 30
Band 5 NIR 0.85 - 0.88 30
Band 6 SWIR 1 1.57 - 1.65 30
Band 7 SWIR 2 2.11 - 2.29 30

토지피복지도 제작에 활용된 항공사진과 동일한 촬영 시기인 2014년에 촬영되고, 구름이 차지하는 비율이 10 % 이하인 영상을 실험 지역에 대해 검색하였을 때, Fig. 5에서 좌측 사진이 5월 30일과 10월 5일로 총 2장이, 우측 사진이 1월 15일, 1월 31일 그리고 10월 14일로 총 3장이 검색되었다. 실험 지역의 위치가 두 장의 위성 영상 사이에 위치하여 두 장 모두가 필요한 상황이므로, 위성 영상간 서로 촬영 날짜 차이가 길지 않으면서 항공사진의 촬영 날짜와도 근접할 것으로 판단되는 10월 5일과 10월 14일에 촬영된 영상을 최종 선택하였다(Fig. 5 참고). 각 영상과 함께 제공되는 메타데이터를 이용하여 밴드별 대기 상단 반사도 영상을 제작하였으며, 학습 및 평가 데이터를 효율적으로 제작하기 위해 두 영상을 정합하였다.

Figure_KSCE_40_05_10_F5.jpg
Fig. 5.

Study Area based on Landsat 8 (Band 5 Composite Image)

3.3 항공정사영상

실험에 활용한 토지피복지도의 제작년도는 2015년이나, 제작에 참고한 항공사진은 2014년에 촬영된 것이다. 이에, 국토지리정보원에서 운영하고 있는 국토정보플랫폼을 통해 2014년에 촬영하여 제작된 1:5,000 축척의 항공정사영상을 취득하였다. 토지피복지도와 동일한 지역에 대해 총 284장을 확보하였으며, Fig. 4는 이를 시각화한 것이다.

한편, 실험에 함께 사용할 Landsat 8 영상 중 10월 14일에 촬영된 영상 내에서 일부 대전 지역에 구름이 산발적이고 넓게 분포하고 있어, 해당 도엽의 영상은 학습데이터에 포함되지 않도록 제외하였다. 또한, 학습데이터는 원본 영상에서 일부 지역을 잘라내어 제작되므로, 30 m의 공간해상도를 가지는 Landsat 8 위성 영상과 동일한 범위를 가질 수 있도록 항공정사영상의 공간해상도를 기존 51 cm에서 50 cm로 재배열(resampling)하였다. 한 픽셀이 30 m인 Landsat 8 위성 영상을 51 cm가 한 픽셀인 항공정사영상과 차지하는 범위를 일치시키기 위해서는 항공정사영상이 실수형의 영상 크기를 가져야 하나, 영상을 구성하는 최소단위인 픽셀을 분리할 수 없으므로 재배열을 수행한 것이다.

3.4 환경부 토지피복지도

환경부에서는 대분류 토지피복지도는 낮은 해상도의 영상 데이터로 제공하고, 중분류와 세분류 데이터는 ESRI 社의 shape 파일 포맷, 즉 벡터 데이터로 제공된다. 각 분류 대상은 고유의 분류 코드를 가지는데, 세분류는 총 세 자리의 숫자로 구성되어 있다. 백의 자리는 대분류 코드를, 십의 자리는 중분류 코드를, 일의 자리는 세분류 코드를 의미하므로, 세분류 코드를 알고 있다면 이를 대분류 또는 중분류로 쉽게 변환할 수 있다. 각 분류 코드가 의미하는 바는 국토환경정보센터 홈페이지(National Environment Information Network System, 2019)에서 확인할 수 있으며, 지점별 분류 코드는 shape 파일 속성정보에 저장되어 있다.

본 연구의 최종 목적은 대분류와 중분류 항목에 대한 자동 분류를 수행하는 것이지만, 분류 대상의 경계 정보를 세분류 수준으로 세밀하게 제작할 수 있을지 그 가능성을 확인하기 위해 본 연구에서는 세분류 토지피복지도를 사용하였다. 2015년에 제작된 토지피복지도가 환경부에서 제공하는 세분류 데이터 중 하나이며, 학습 모델에 입력할 수 있도록 벡터 데이터를 래스터 포맷으로 변환하였다(Fig. 6). 이때, 3.3절에서 언급한 것과 같은 이유로 50 cm급의 공간해상도를 가지도록 제작하였다.

Figure_KSCE_40_05_10_F6.jpg
Fig. 6.

Conversion of Land Cover Vector Map (1:5,000 Index Number: 36705064)

3.5 학습 및 평가 데이터 제작

컴퓨터 RAM 메모리의 한계로 영상 전체를 입력하는 데 한계가 있으므로, 항공정사영상, Landsat 8 위성영상 그리고 래스터화한 토지피복지도를 Residual U-Net 입력에 용이한 형태로 각 영상을 작은 크기로 잘라내는 가공 작업을 수행하였다. 잘라낸 모든 영상에 동일한 지역 정보가 담길 수 있도록 각 영상의 메타데이터에 저장된 위치정보를 이용하여 영상 패치(patch)를 제작하였다. Landsat 8 위성 영상의 공간해상도가 30 m이므로 4×4 픽셀로 패치를 잘라내면, 해당 패치는 120×120 m2의 면적을 차지하게 되므로 항공정사영상과 토지피복지도를 240×240 픽셀로 자르면 4×4 픽셀의 Landsat 8 위성 영상 패치와 동일한 범위를 차지하도록 제작할 수 있다. 물론, 영상 크기를 더 증가시킬 수 있으나, Zhang et al.(2018)이 Residual U-Net에 적용한 224×224 픽셀과 크기가 유사하고, 메모리 부족 현상을 극복할 수 있는 크기이기에 해당 수치로 영상 패치를 생성하였다.

한편, Landsat 8 위성 영상의 경우, 기타 자료와 비교해 공간해상도가 현저히 낮아 잘라낸 영상 패치를 그대로 사용하면, 최종 생성된 토지피복지도 내부에 픽셀간 경계가 두드러져 나타나는 현상이 나타남을 발견하였다(Fig. 7). 이에, Landsat 8 영상 패치는 선형 보간법(bilinear interpolation)을 적용하여 픽셀간 경계가 두드러지지 않도록 영상 패치 생성 방법을 수정하였다.

Figure_KSCE_40_05_10_F7.jpg
Fig. 7.

An Example of Border Highlighted Phenomenon When using Original Landsat 8 Image

토지피복지도는 세분류 항목의 분류 코드를 바탕으로 구축된 것이므로, Table 1에 나열한 각 실험군에서 사용할 토지 분류만 학습데이터로 생성될 수 있도록 분류 코드 변환 기능을 삽입하여 세분류를 중분류 또는 대분류 코드로 변환하여 영상 패치가 제작될 수 있도록 하였다. 도엽당 50장의 패치 영상이 제작될 수 있도록 구성하되, 제작 위치는 도엽 내에서 랜덤하게 선정될 수 있도록 하였다. 총 248장의 데이터를 사용하였으므로, 데이터 종류별로 12,400장의 학습데이터가 생성되었으며, 평가 데이터는 도엽당 30장의 패치 영상을 제작하여 총 7,440장을 생성하였다. Fig. 8은 1:5,000 도엽번호 36705064 지역에 대해 최종 제작된 토지피복지도, 항공정사영상 그리고 Landsat 8 위성 영상의 영상 패치 생성 결과를 예시로 도시한 것이다.

Figure_KSCE_40_05_10_F8.jpg
Fig. 8.

An Example of Random Training Set Generation for Case Ⅲ (1:5,000 Index Number: 36705064)

4. 실험 결과

학습은 48 GB의 물리 RAM 메모리와 2개의 NVIDIA GTX 1080 ti가 탑재된 실험 컴퓨터에서 수행하였으며, Ubuntu 18.04 OS 환경에서 64 GB의 스와프(swap) 메모리를 보조로 사용하였다. 주요 알고리즘의 구현은 Tensorflow 2.0과 Keras 라이브러리를 통해 이루어졌다. 2.2절에서 언급한 Residual U-Net 신경망에 3.5절에서 언급한 학습데이터를 입력하여 학습을 진행한 결과, 모든 실험군이 최대 학습 반복 횟수인 450회까지 학습이 진행되지 않고 조기 종료되었다. Table 3는 학습 결과를 나열한 것이고, Table 1에 정의된 실험군별로 표에 기재한 평균 제곱 오차 손실 계수에 수렴하여 학습이 종료된 것을 확인하였다(Fig. 9).

Table 3.

Results After Training the Model

Elapsed time per epoch (sec) Iteration number of epoch Mean Squared Error (MSE) loss
Case Ⅰ 140 363 0.0056
Case Ⅱ 418 0.0112
Case Ⅲ 379 0.0070
Figure_KSCE_40_05_10_F9.jpg
Fig. 9.

Loss Change Graph

Fig. 10은 정규화된 혼동 행렬(Normalized confusion matrix)을 나타낸 것으로 각 분류 대상에 대한 재현율(recall)을 행렬 형태의 그림으로 도식하되, 0에서 1 사이의 값을 가지도록 정규화하여 나타낸 것이다. 여기서, 재현율은 토지피복지도(참값)에 정의된 대상을 모델이 그대로 예측한 비율을 말하는 것으로 GIS 분야에서 사용하는 생산자 정확도(Producer’s accuracy)와 같은 의미이다.

Figure_KSCE_40_05_10_F10.jpg
Fig. 10.

Confusion Matrix of Recall

실험 결과, 시가화·건조지역(Used area), 농업지역, 산림 그리고 수계가 실험군의 구성과 관계없이 높은 분류 정확도를 가지는 것으로 나타났다. 이는 영상 정보만으로도 대상을 분류하기에 용이할 만큼 각 대상이 명확한 특징을 가지고 있기 때문으로 판단된다. 또한, 해당 항목이 다른 분류 대상보다 단일 대상이 비교적 넓은 면적을 가지고 있어, 큰 공간 해상도를 가진 Landsat 8 위성 영상을 사용하였더라도 일정한 값이 제공되어 모델에 긍정적인 영향을 미쳤을 것으로 판단된다.

실험군Ⅰ과 실험군Ⅱ에 대한 자동 분류 모델 생성 결과, 중분류 항목이 거의 제대로 분류되지 않는 것으로 나타났다. 실험군Ⅰ의 경우, 주거지역(Residential area)과 교통 지역(Traffic area)은 78 %의 분류 정확도를 가졌지만 시가화·건조지역 내 기타 중분류는 자동 분류의 의미가 없을 정도로 정확도가 낮았다. 앞서 언급한 것과 마찬가지로 분류 대상이 차지하는 면적에 의한 영향일 수 있으나, 토지피복지도에 정의된 중분류 대상 중 그 정의가 불분명한 대상이 존재한다는 점도 모델의 정확도를 저하하는 요인일 것으로 파악된다. 예를 들면, 상업지역(Business area) 중 하나인 혼합지역은 명칭 그대로 주거/상업·업무/공업 시설이 혼합된 지역으로 정의되어 있다. 실제, 혼동 행렬을 참고하면 상업지역의 상당 지역이 주거지역(29 %)과 교통 지역(19 %)으로 분산되어 있음을 확인할 수 있다(Fig. 10(a) 참고). 오히려 모델이 현실을 반영하여 표현한 것으로 판단된다.

실험군Ⅱ의 경우, 논(Paddy, 72 %)을 제외한 농업지역 내 기타 중분류가 대부분 오분류되었다. 농업지역 내 중분류가 사람의 사용 목적에 따라 구분된 것으로 영상 상으로는 서로 유사한 특징을 가져 각각의 분류 대상으로 특정해내지 못한 것으로 보인다. 이와 같은 이유로 인해, 많은 농업지역 내 중분류가 서로에게로 분산되어 분류된 것으로 보인다.

실험군Ⅲ은 나머지 실험군과 달리 대분류 항목으로만 구성하였는데, 습지를 제외한 기타 항목은 높은 분류 정확도를 가지는 것으로 나타났으므로 습지에 대한 분류 정확도만 확보되었다면 더 높은 전체 정확도를 확보하는 것도 가능하였을 것으로 보인다. 습지의 경우, 많은 지역이 초지와 나지로 오분류되었는데, 이는 습지가 갯벌과 같이 물이 고인 지역뿐만 아니라 수변 식생까지 포함하기 때문에 모델이 착오를 일으켜 이와 같은 결과가 도출된 것으로 판단된다.

Tables 4~6은 각 실험군에 대한 정확도 평가 결과를 나타낸 것으로, 정밀도(Precision), 재현율, f1-score 그리고 전체 정확도(Overall accuracy)를 산출하였다(Audebert et al., 2016). 각 평가 지표는 딥러닝 연구 분야에서 가장 많이 사용되는 평가 방법으로, 여기서, 전체 정확도는 전체 분류 대상에 대해 모델이 분류 대상을 정확히 분류해낸 비율을 말하는 것으로 재현율 혼동 행렬의 대각선 방향에 위치한 값들의 평균과 같다. 정밀도는 모델이 예측한 분류 대상이 토지피복지도의 분류 대상과 동일한지에 대한 비율을 말하는 것으로, GIS 분야에서 사용하는 사용자 정확도(User’s accuracy)와 같은 의미이다. 한편, 정밀도와 재현율 모두 높은 수치를 가져야 좋은 모델이라 할 수 있으며, 이를 하나의 수치로 표현하기 위해 개발된 것이 f1-score이다. f1-score는 재현율과 정밀도에 대한 기하평균을 의미하며, 보통 둘 중 더 낮은 값에 가까운 수치가 산출되는 특징을 가진다.

Table 4.

Evaluation for CaseⅠwith Test Sets

Precision Recall f1-score
Residential area 0.13 0.78 0.23
Manufacturing area 0.17 0.07 0.1
Business area 0.24 0.26 0.25
Culture, Sports and Recreation Area 0.09 0.01 0.02
Traffic area 0.49 0.78 0.6
Public facilities area 0.14 0.03 0.05
Agricultural area 0.67 0.84 0.75
Forest area 0.97 0.77 0.86
Grassland 0.31 0.51 0.39
Wetland 0.15 0.13 0.14
Barren 0.29 0.71 0.41
Water 0.85 0.9 0.87
Overall accuracy (%) 71.51
Table 5.

Evaluation for CaseⅡ with Test Sets

Precision Recall f1-score
Used Area 0.54 0.92 0.68
Paddy 0.79 0.72 0.75
Field 0.43 0.45 0.44
Plantation Facilities 0.61 0.22 0.32
Orchard 0.12 0.09 0.1
Other plantations 0.09 0.02 0.03
Forest area 0.96 0.84 0.9
Grassland 0.32 0.53 0.4
Wetland 0.1 0.08 0.09
Barren 0.33 0.78 0.46
Water 0.84 0.98 0.91
Overall accuracy (%) 71.09
Table 6.

Evaluation for CaseⅢ with Test Sets

Precision Recall f1-score
Used Area 0.77 0.94 0.84
Agricultural area 0.87 0.87 0.87
Forest area 0.98 0.87 0.92
Grassland 0.62 0.79 0.69
Wetland 0.46 0.38 0.41
Barren 0.73 0.9 0.81
Water 0.91 0.99 0.95
Overall accuracy (%) 86.61

전체 정확도는 실험군Ⅰ이 71.51 %, 실험군Ⅱ가 71.09 % 그리고 실험군Ⅲ이 86.61 %인 것으로 나타났다. f1-score를 비교한 결과, 중분류를 삽입한 실험군Ⅰ과 실험군Ⅱ가 전반적으로 낮은 수치를 가져 실험군Ⅲ에 비해 모델의 성능이 좋지 않은 것으로 판단된다. 특히, 실험군Ⅰ은 재현율에 비해 정밀도가 전반적으로 낮은데, 모델이 분류한 하나의 대상을 토지피복지도와 비교하였을 때 실제 다른 대상이 더 많이 포함되어 있음을 의미한다. 반면, 실험군Ⅲ은 재현율뿐만 아니라, 정밀도도 높아 f1-score도 분류 항목별로 높은 수치를 가지는 것으로 나타나, 제작된 모델이 안정적으로 결과를 제공하는 것이 가능할 것으로 판단된다.

Fig. 11은 실험군Ⅲ을 통해 학습된 토지분류 자동생성 모델을 통해 제작된 토지피복지도를 도시한 것이다. 자동 제작된 결과를 확인해보면, 항공정사영상에서 확인할 수 없는 사물은 제대로 탐지되지 않는 것을 확인할 수 있다. Fig. 11(a)와 같이 도로 위를 나무가 덮고 있는 경우, 실제 도로가 존재하더라도 도로가 탐지되지 않고 모두 산림으로 분류되었다. 반대로 Fig. 11(b)와 같이 항공정사영상에서 다른 지형의 분포가 확인되면, 토지피복지도에 존재하지 않더라도 해당 지역에 대한 분류가 이루어짐을 확인하였다. 반면, Fig. 11(c)와 같이 대상의 뚜렷한 특징으로 인해 오분류한 사례도 있었는데, 잔디 운동장을 시가화·건조지역이 아닌 초지와 농업지역으로 분류되어 있었다.

Figure_KSCE_40_05_10_F11.jpg
Fig. 11.

Automatically Generated Land Cover Map with Trained Residual U-Net (Case Ⅲ)

한편, 오분류된 지역 중에서 오히려 자동생성 모델이 더 정확한 것으로 판단되는 지역도 존재하는 것을 확인하였다. Fig. 11(d)에 나타난 것과 같이 단독 건물만 시가화·건조지역으로 분류하고 그 주변은 초지로 분류하는 것이 더 정확할 것으로 보이나, 환경부의 토지피복지도에는 그보다 더 넓은 지역이 시가화·건조지역으로 분류되어 있다(빨간 박스 참고). Fig. 11(e)의 경우에도 도로를 침범한 나무의 경계를 따라 해당 영역은 산림으로 분류된 것을 확인할 수 있으며, Fig. 11(f)의 경우에도 토지피복지도에는 표현되어 있지 않은 건물이 탐지된 모습을 확인할 수 있다(빨간 박스 참고). 지도로 제작됨에 따라 생략된 대상이지만 일부라도 대상을 탐지해낸 것이다. 만약 이러한 부분을 보완할 수 있다면 분류 정확도는 더 상승할 것으로 보인다.

5. 결 론

본 연구에서는 Residual U-Net을 이용하여 환경부의 토지피복지도를 자동 생성하는 연구를 수행하였다. 토지피복지도를 예측하기 위해 항공정사영상과 Landsat 8 위성 영상을 활용하였으며, 해당 자료에 의한 자동 분류 가능성을 확인하기 위해 총 세 가지 실험군을 구성하여 학습을 진행하고 이에 대한 정확도 평가를 수행하였다. 시가화·건조지역만 중분류를 사용한 실험군Ⅰ이 71.51 %, 농업지만 중분류를 사용한 실험군Ⅱ가 71.09 %, 대분류 항목만 사용한 실험군Ⅲ이 86.61 %의 정확도를 가지는 것으로 나타났다.

실험군Ⅰ과 실험군Ⅱ의 경우, 중분류 항목에 대한 자동 분류를 수행하기 위해 항공정사영상을 포함해 Landsat 8 위성 영상을 보조 자료로 사용하였다. 중분류의 일부 항목은 Landsat 8의 정보가 추가되었음에도 분류 정확도가 매우 낮았다. Landsat 8 위성 영상으로는 일부 중분류 항목들까지 구분하기에는 충분한 정보가 제공되지 못한 점도 있을 것이나, 토지피복지도에서 정의하고 있는 일부 중분류 항목이 불명확한 점도 영향을 미쳤을 것으로 판단된다. 예를 들어, 시가화·건조지역 대분류 내 상업지역 중분류 항목이 혼합지역이라는 세분류를 가지는데, 이는 말 그대로 주거, 상업, 업무, 공업 시설이 혼합된 지역을 의미한다. 이렇게 이미 별도로 존재하는 중분류 대상이 다른 항목으로, 또 혼합된 형태로 정의되어, 학습에 좋지 않은 영향을 미쳤을 것으로 판단된다. 실제 실험군Ⅰ의 정규 혼동 행렬을 참조하면(Fig. 10(a)), 상업지역 항목이 주거지역(29 %), 공업지역(9 %) 그리고 교통지역(19 %)으로 분배되어 있음을 확인할 수 있다. 해당 부분은 추후 토지피복지도의 보완, 수정을 통해 보완할 수 있을 것으로 판단된다.

실험군Ⅲ의 경우, 분류할 대상의 개수가 줄어듦으로 인해 정확도가 상승하는 효과도 있었을 것이나, 선행연구와 비교해 더 많은 개수의 분류 대상에 대해 자동 분류 모델을 제작하였음에도 더 높은 정확도를 가지는 것으로 나타났다. 또한, 다른 모델에 비해 정밀도가 높은 것으로 나타나 대분류 항목에 대한 토지분류 자동생성 모델 개발의 가능성을 확인하였다.

본 연구를 통해 두 가지 한계점을 발견하였는데, 첫째는 Landsat 8의 공간 해상도에 의한 한계점이다. 사용한 Landsat 8 위성 영상의 큰 분광 해상도는 다양한 정보를 제공할 수 있다는 측면에서는 장점이지만, 큰 공간 해상도로 인해 선형 보간법을 해결책으로 사용하였다. 그러나 보간 적용 위치에 따라 지형적으로는 동일한 지역이더라도 해당 위치의 픽셀값이 정확히 일치하지 않아, 작은 수치 차이이지만 모델의 안정성에 영향을 미쳤을 가능성이 있다.

둘째는 참값으로 활용한 토지피복지도의 한계로 인한 문제가 있다. 토지피복지도의 제작에 활용된 항공사진의 촬영 시기와 관련 자료를 참고하여 연구에 활용한 것인데, 항공정사영상과 토지피복지도가 서로 일치하지 않는 지역이 일부 존재함을 확인하였다. 공터 내부에 건설된 작은 건축물이 모두 나지로 분류되어 있거나, 논 사이에 있는 일부 도로가 모두 논으로 분류된 것이 그 예시인데, 이는 자동 분류 모델에 불명확한 정보를 제공하여 모델의 분류 정확도를 저하하는 주요 원인인 것으로 판단된다. 또한, 여러 항목이 혼합되어 하나의 분류 항목으로 정의된 항목이 존재하므로 모델의 안정성 확보를 위해서는 원본 데이터에 대한 수정 및 가공이 필요할 것으로 보인다.

본 연구를 통해 Figs. 11(e) and 11(f)와 같이 생성된 모델이 현실 그대로를 반영하여 토지피복지도가 제작된 사례를 확인할 수 있었으며, 이는 토지피복지도를 제작할 때 생략한 세부적인 표현을 모델이 작성할 수 있음을 확인할 수 있었다. 향후에는 학습 전용 데이터를 별도로 제작하거나, 공간 해상도가 더 좋은 위성 영상을 활용하여 분류 정확도가 더 향상된 자동생성 모델 개발 연구를 진행하고자 한다.

Acknowledgements

이 논문은 행정안전부 재난안전취약핵심역량 도약기술개발사업(시뮬레이션 기반 조직단위 비상대비 훈련기술 개발)의 지원을 받아 수행된 연구임(2018-MOIS33-001).

References

1 
Audebert, N., Le Saux, B. and Lefèvre, S. (2016). "Semantic segmentation of earth observation data using multimodal and multi-scale deep networks." Asian Conference on Computer Vision, Springer, Taipei, Taiwan, pp. 180-196.DOI
2 
Buslaev, A., Seferbekov, S., Iglovikov, V. and Shvets, A. (2018). "Fully convolutional network for automatic road extraction from satellite imagery." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, Salt Lake City, Utah, pp. 207-210.DOI
3 
Filin, O. and Zapara, A. (2018). "Road detection with EOSResUNet and post vectorizing algorithm." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, Salt Lake City, Utah, pp. 201-205.DOI
4 
Ghosh, A., Ehrlich, M., Shah, S., Davis, L. and Chellappa, R. (2018). "Stacked U-Nets for ground material segmentation in remote sensing imagery." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, Salt Lake City, Utah, pp. 257-261.DOI
5 
Jo, W. H., Lim, Y. H. and Park, K. H. (2019). "Deep learning based land cover classification using convolutional neural network: a case study of Korea." The Korean Geographical Society, Vol. 54, No. 1, pp. 1-16 (in Korean).
6 
Kampffmeyer, M., Salberg, A. B. and Jenssen, R. (2016). "Semantic segmentation of small objects and modeling of uncertainty in urban remote sensing images using deep convolutional neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition workshops, Las Vegas, pp. 1-9.DOI
7 
Lee, S. H. and Kim, J. S. (2019). "Land cover classification using sematic image segmentation with deep learning." Korean Journal of Remote Sensing, Vol. 35, No. 2, pp. 279-288 (in Korean).
8 
National Environment Information Network System (2019). Land cover map, Available at: http://www.neins.go.kr/gis/mnu01/doc 03a.asp (Accessed: February 03, 2020) (in Korean).
9 
Ronneberger, O., Fischer, P. and Brox, T. (2015). "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, Germany, pp. 234-241.DOI
10 
Seo, K. H., Oh, C. W., Kim, D, Lee, M. Y. and Yang, Y. J. (2019). "An empirical study on automatic building extraction from aerial images using a deep learning algorithm." Proceedings of Korean Society for Geospatial Information Science, Republic of Korea, pp. 243-252 (in Korean).
11 
Szegedy, C., Ioffe, S., Vanhoucke, V. and Alemi, A. A. (2017). "Inception-v4, inception-resnet and the impact of residual connections on learning." Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, San Francisco, pp. 4278-4284.
12 
Xu, Y., Wu, L., Xie, Z. and Chen, Z. (2018). "Building extraction in very high resolution remote sensing imagery using deep learning and guided filters." Remote Sensing, Vol. 10, No. 1, 144.DOI
13 
Zhang, Z., Liu, Q. and Wang, Y. (2018). "Road extraction by deep residual u-net." IEEE Geoscience and Remote Sensing Letters, Vol. 15, No. 5, pp. 749-753.DOI