Mobile QR Code QR CODE : Journal of the Korean Society of Civil Engineers

  1. 한국건설기술연구원 박사후연구원YS (Korea Institute of Civil Engineering and Building Technology · wsy0209@kict.re.kr)
  2. 종신회원 · 한국건설기술연구원 연구위원 (Korea Institute of Civil Engineering and Building Technology · Chang@kict.re.kr)
  3. 정회원 · 교신저자 · 한국건설기술연구원 선임연구위원 (Corresponding Author ․ Korea Institute of civil Engineering and Building Technology · imchung@kict.re.kr)



종분포모형, 수문-생태, 앙상블, 멸종위기종, 출현 적합도
Species distribution model, Hydrologic-ecological, Ensemble, Endangered species, Occurrence suitability

1. 서 론

최근 세계경제포럼은 전세계가 직면한 향후 10년간 인류를 위협할 장기 위험요인으로 다양한 환경적 요인들을 발표하였으며, 그 중 생물다양성 손실 및 생태계 붕괴를 상위 4위 장기 위험요인으로 평가하였다(WEF, 2023). 이와 더불어, 생물다양성과학기구(IPBES)와 기후변화에 관한 정부간 협의체(IPCC)도 기후위기에 따른 생물다양성이 손실되고 있어 기후위기 극복과 더불어 건강한 생태계의 보전을 위한 생물다양성 확보의 필요성을 강조하고 있다(IPBES, 2019). 다양한 생태계 중 특히 하천과 호소 등을 포함하는 수생태계는 다양한 담수 생물종의 서식처이자, 식량, 에너지, 수질 정화, 홍수 조절, 경관 등의 생태계 서비스를 제공하여 인간 삶의 질과 직결되는 중요한 생태계이다.

그러나 기후변화, 도시개발, 산업 및 농업 활동의 증가와 같은 자연적, 인위적인 변화로 인해 수온이 상승하고 하천으로 유입되는 오염원과 영양염류(N, P)가 증가하여 수질이 오염되고 생태계가 교란되는 등 수환경 및 수생태계 악화가 가속화되고 있다(Allan and Flecker, 1993). 특히 낙동강은 유해성 남조류 확산으로 인한 녹조현상이 여름철 빈번하게 발생하고 있으며(Kim et al., 2024), 과거 수질악화 및 기생충 감염에 따른 어류의 집단 폐사가 발생하였고, 수질오염의 대표적인 생물지표인 붉은 깔따구류가 발견되는 등 수생태계 악화로 인한 지속적인 문제가 발생하고 있다(Jung et al., 2022). 하천 생태계의 구조와 기능을 조절하는 다양한 생물군 중 어류는 환경 변화에 민감하게 반응하여 수질오염 및 서식처 교란의 정도를 평가하는 지표생물로 국내외에서 다양하게 이용되고 있다(Jones et al., 2005; NIER, 2015; An and Lee, 2018). 따라서 어류의 분포 및 출현 양상을 정량적으로 예측하는 것은 생물다양성 보전과 건강한 수생태계 확보를 위한 핵심 과제라 할 수 있다.

또한, 하천 생태계 보전의 중요성은 일반적인 어류 군집뿐만 아니라 멸종위기 어종의 생존과도 직결된다. 멸종위기 어종은 서식지 교란과 환경 변화에 특히 취약하여 개체군 감소와 국지적 절멸 위험에 직면하고 있으며(IPBES, 2019), 멸종위기 야생동식물을 관리하는 것은 고유 생물자원의 보전 및 생물다양성 확보와 함께 생태계를 유지하기 위하여 중요하다(MLIT, 2010; Ko et al., 2013). 따라서 멸종위기 어종의 서식지 분포를 정량적으로 예측하고 미래 환경변화에 따른 영향을 평가하는 연구는 효과적인 보전 전략을 수립하고 지속가능한 수생태계 관리 방안을 마련하는 데 필수적이다.

이를 위해 최근 국내외에서 종분포모형(Species Distribution Models, SDMs)이 생물다양성 평가, 서식지관리 및 복원, 생태계 보전을 위한 보호지역 지정 등의 다양한 연구에 활용되고 있다(Franklin, 2009; Kwon et al., 2012; Thuiller et al., 2009). SDM은 특정 종의 출현 자료와 환경변수 간의 통계적 관계를 분석하여 서식지 적합도와 출현 적합도를 공간적으로 예측하며 (Guisan and Zimmermann, 2000; Elith and Leathwick, 2009), 기후, 지형, 토지이용 등의 환경변수를 기반으로 다양한 시공간 범위에서 적용할 수 있는 장점을 가지고 있다. 그러나, 수생태계는 유역의 토지이용, 기후, 지형과 같은 거시적인 변화뿐만 아니라 물리적, 수문학적, 이화학적 변화와 같은 미시적인 변화에 영향을 받기 때문에 어류를 대상으로 SDM을 적용한 연구는 상대적으로 부족한 실정이다. 이와 더불어 기후변화, 외래 종의 침입, 유역간 물 이동 등의 다양한 환경 변화에 대응하고 생물다양성을 보전하기 위해서는 미시적인 하천 규모의 생태 연구뿐만 아니라 거시적인 유역 수준의 생태 연구가 필요하다(Thorp, 2014).

따라서, 본 연구의 목적은 거시적인 변화와 더불어 미시적인 변화를 반영할 수 있도록 유역 단위의 수문, 수질 모의를 할 수 있는 SWAT(Soil and Water Assessment Tool; Arnold et al., 1996) 모형과 종분포모형을 연계한 통합 수문-생태 모델링 접근법을 기반으로 낙동강 유역 하천의 멸종위기 어류 분포를 예측하는 것이다. 이를 위해 (1) 불균형하게 분포한 멸종위기 어종의 출현 자료를 리샘플링하였으며, 종분포모델에서 많이 사용하는 개별 모델과 이들을 결합한 앙상블 모델의 예측 정확도를 평가하였다. (2) 그리고 가장 높은 성능을 가지는 모델을 이용하여 낙동강 유역 하천에서의 멸종위기 어종의 출현 적합도를 예측하고, 개별 모델과 앙상블 모델의 결과를 비교, 분석하였다.

2. 연구방법

2.1 연구대상지

우리나라에서 두 번째로 큰 유역인 낙동강 유역은 유역면적 23,817 km2으로 국토의 약 24 %를 차지하며, 경상북도, 경상남도, 대구광역시, 부산광역시 등 여러 행정구역을 포함하고 있다. 낙동강 유역은 내성천, 감천, 위천, 금호강, 황강, 남강, 밀양강 등의 대규모 지류를 포함하고 있으며 가장 많은 대규모 수리 구조물이 설치되어 있다(Fig. 1). 낙동강 유역에는 성덕댐, 군위댐, 김천부항댐, 밀양댐, 영주댐, 합천댐, 남강댐, 안동댐, 임하댐 등의 다목적댐과 상주보, 낙단보, 구미보, 칠곡보, 강정고령보, 달성보, 합천창녕보, 창녕함안보 등의 다기능 보가 설치되어 운영되고 있다. 토지이용은 산림이 약 70 %로 가장 큰 비중을 차지하고, 농업지역이 약 20 %, 도시 및 산업 지역이 약 10 % 내외를 차지한다. 특히 대구, 부산 등 하류권의 대도시는 높은 인구밀도와 산업화로 인해 수자원과 수생태계에 상당한 부담을 주고 있다. 본 연구에서는 낙동강 본류와 더불어 약 660개의 지류 하천을 연구대상지로 선정하였다.

Fig. 1. Study Area

../../Resources/KSCE/Ksce.2025.45.6.0687/fig1.png

2.2 멸종위기어종 선정

본 연구에서는 멸종위기 야생생물 I급의 잉어과 어류인 흰수마자 (Gobiobotia naktongensis Mori, 1935)를 대상종으로 선정하였다 (Fig. 2(a)). NIBR(2018)에 따르면 흰수마자는 모래 속에 숨어있는 습성을 가지고 있으며, 수질오염 및 하상 공사로 인한 서식지 감소에 따라 멸종위기종으로 평가되고 있다. 흰수마자는 우리나라 고유종으로, 처음 보고될 당시 낙동강에만 서식하는 것으로 알려져 있었으나, 이후 임진강, 한강, 금강에서도 서식하는 것으로 밝혀졌다. 흰수마자는 수심 10~50 cm, 가는 모래층이 발달되어 있는 평여율에 주로 서식하며, 야간에 저서성 대형 무척추동물인 깔다구류 유충, 실지렁이류, 각다귀류 유충 등을 주로 먹는 것으로 알려져있다. 산란기인 6-7월에 본류로 이동하여 산란 후 치어와 함께 지류 하천으로 회귀하는 것으로 추정되고 있다. 2011년부터 2024년까지의 수생태계 건강성 조사를 통해 흰수마자가 발견된 지점은 총 11지점이며, 예천, 내성천, 위천, 감천, 남강, 황강 그리고 낙동강 본류에서 발견되었다(Fig. 2(b)).

Fig. 2. Overview of Fish Survey Data and Species Information. (a) Gobiobotia naktongensis Mori, (b) Fish Survey Sites and Monitoring Status

../../Resources/KSCE/Ksce.2025.45.6.0687/fig2.png

2.3 통합 수문-생태 모델

본 연구에서는 Fig. 3과 같이 유역모델과 종분포모델을 연계한 통합 수문-생태 모델링을 적용하여 멸종위기종의 분포를 추정하였다. 기존 종분포모형에서는 DEM, 경사, 기상 조건 등의 환경변수를 공간적으로 보간하여 종의 분포 가능성을 모의하는 반면 본 연구에서는 통합 수문-생태적 관점을 적용하기 위해 유역모델을 통해 도출한 환경변수를 사용하여 종분포모형을 구축하였다.

Fig. 3. Framework of Integrated Hydro-Ecological Modeling

../../Resources/KSCE/Ksce.2025.45.6.0687/fig3.png

2.3.1 종분포자료 구축

생물측정망은 수생태계 건강성 평가를 위해 환경부에서 현장 조사하고 있는 지점으로, 낙동강 유역에는 14년 동안(2011~ 2024년) 151~298개의 생물측정망이 있다. 2016년 이후 낙동강 본류 주요 49개 지점에 대해서는 매년 현장 조사를 진행하되, 지류 하천은 3년 주기로 현장 조사를 수행하고 있다(Fig. 2(b)).

2.3.2 환경변수

통합 수문-생태 모델링을 위해 환경변수는 유역변수, 수문변수, 수질변수로 구분하여 총 10개의 환경변수를 구축하였다(Table 1). 집수면적(Drainage area), 도시의 비율(LU100), 농경지 비율(LU200), 그리고 산림의 비율(LU300)을 유역변수로 선정하였으며 DEM(Digital Elevation Model)과 환경부의 중분류 토지피복도를 이용하여 구축하였다. 수문 및 수질 변수는 검·보정한 SWAT 모의 결과를 사용하여 각 소하천에 대해서 구축하였다.

Table 1. Environmental Variables of Integrated Hydro-Ecological Model
Category Variable name Description
Watershed Drainage area Drainage Area (km2)
LU100 Ratio of Urban area
LU200 Ratio of Agricultural land area
LU300 Ratio of Forest area
Hydrology Q_mean Annual average flow discharge
HF event Average annual number of high-flow events
LF duration Average annual low flow duration
Water quality SS Annual loading of suspended solid per unit area
T-N Annual loading of total-nitrogen per unit area
T-P Annual loading of total-phosphorus per unit area

SWAT 모형은 미국 농무성 농업연구청(USDA-ARS)에서 개발한 유역 단위의 준분포형 물리기반 모형으로, 토지이용, 토양, 지형, 기상 등의 입력자료를 이용하여 유출량, 침식, 영양염류, 그리고 비점오염 부하를 장기적으로 모의할 수 있다(Arnold et al., 1996). 본 연구에서는 2013-2024년 기간의 유출량 및 수질 관측자료를 기반으로 검보정한 SWAT을 활용하였다. 주요 관측지점에서 결정계수(R2)가 0.73-0.88, Nash-Sutcliffe 효율계수(NSE)가 0.70-0.85 범위로 SWAT 모형이 유역의 수문 및 수질 변동 특성을 신뢰성 있게 재현하는 것으로 판단하여 환경변수 산정에 활용하였다. 이에 따라 수문 변수로는 연평균 유량(Q_mean), 연평균 고유량 사상 발생 횟수(HF event), 그리고 저유량 지속 기간(LF duration)을 선정하였고, 수질 변수로는 연평균 단위 면적당 부유물질 부하량(SS), 총질소 부하량(T-N), 그리고 총인 부하량(T-P)을 선정하였다.

2.3.3 모델링 방법

본 연구에서는 종의 관측 데이터가 부족한 멸종위기종의 분포를 모의하기 위해 불균형한 데이터의 리샘플링을 수행하였다. SMOTE(Synthetic Minority Oversampling Technique; Chawla et al., 2002), ADASYN(Adaptive Synthetic Sampling; He et al., 2008), 그리고 SMOTEENN(Synthetic Minority Oversampling Technique and Edited Nearest Neighbors; Batista et al., 2004) 증강 기법을 사용하여 데이터 리샘플링을 수행하였다. SMOTE는 소수 클래스 데이터 사이를 보간하는 중간 보간 샘플링 방법으로 학습 안정성과 일반화 능력을 향상시킬 수 있으나 데이터의 경계 영역에서 불필요한 샘플을 생성하여 자료의 통계적 분포를 왜곡할 가능성이 존재한다. ADASYN은 데이터 분포에 따라 구분이 어려운 영역에서 샘플을 생성하는 경계 근처 집중 샘플링 기법으로 지역적 샘플링으로 인한 노이즈가 증폭되는 문제가 발생할 수 있다. 그리고 SMOTE-ENN은 SMOTE로 샘플을 생성하고 ENN으로 노이즈를 제거하는 기법으로 과도한 보간을 완화할 수 있으나 데이터 경계가 복잡한 경우 유효 샘플까지 제거되는 문제가 발생할 수 있다.

모델의 학습과 검증을 위해 층화 교차검증(Stratified K-fold cross-validation) 기법을 적용하였으며, 전체 데이터를 5개의 fold로 구분하여 4개는 Train data set, 1개는 Test data set으로 사용하였다. 각 fold마다 클래스 비율을 유지하도록 층화(stratification)를 적용하였으며, 데이터 증강(SMOTE, ADASYN, SMOTEENN)은 훈련 데이터에만 적용하여 원자료의 분포 왜곡을 최소화하였다.

불균형한 데이터를 증강시키고, 종분포모델에서 많이 사용되는 6개의 알고리즘 기반의 단일 모델을 구축하였다: GLM (Generalized Linear Model; Nelder and Wedderburn, 1972), RF (Random Forest; Breiman, 2001), GBM (Gradient Boosting Machine; Friedman, 2001), XGboost (Extreme gradient boosting; Chen and Guestrin, 2016), KNN (K-Nearest Neighbor; Cover and Hart, 1967), MaxEnt (Maximum Entropy; Phillips et al., 2006). 그리고 단일 모델이 가지는 불확실성에 대한 한계를 보완하고 일반화 성능을 강화하기 위해(Araújo and New, 2007), 개별 알고리즘의 예측 결과를 통합하는 앙상블 기법을 적용하여 통합 수문-생태 모델을 구축하였다.

2.3.4 모델 평가

본 연구에서는 모형의 성능을 정량적으로 평가하기 위해 AUC(Area Under the Receiver Operating Characteristic Curve), TSS(True Skill Statistic), 그리고 Balanced accuracy를 사용하였다. AUC는 ROC (Receiver Operating Characteristic) 곡선 아래 면적을 의미하며 모델이 임의의 존재(presence)와 부재(absence) 샘플을 올바르게 구분할 확률로 해석된다 (Hanley and McNeil, 1982). AUC 값은 0.5(무작위 수준)에서 1(완벽한 분류) 사이에 분포하며, 0.7 이상은 수용 가능, 0.8 이상은 우수, 0.9 이상은 매우 우수한 성능으로 평가된다. 민감도(sensitivity)와 특이도(specificity)를 동시에 고려하는 지표인 TSS는 민감도와 특이도의 합에서 1을 뺀 값으로 계산된다(Allouche et al., 2006). 민감도와 특이도는 혼동행렬(confusion matrix)에서 산출되는 TP(True Positive), TN(True Negative), FP(False Positive), 그리고 FN(False Negative)를 기반으로 각각 Eq. (1), Eq. (2)와 같이 정의되며, TSS 값은 -1에서 1 사이로 계산된다.

(1)
$Sensitivity =\dfrac{TP}{TP +FN}$
(2)
$Specificity =\dfrac{TN}{TN +FP}$

TSS 값이 0이면 예측 능력이 없음을 의미하며, 1은 완벽한 예측을 나타낸다. 마지막으로 불균형 분류 문제에서 모델의 성능을 평가하기 위해 사용되는 지표인 Balanced Accuracy는 민감도와 특이도의 산술평균 값으로, 다수 클래스에 의해 과대 평가될 수 있는 정확도를 보완하는 지표이다. 종분포모델과 같이 출현 자료가 결측되거나 불균형하게 분포하는 생태학적 연구에서 Balanced Accuracy는 모델 성능을 공정하게 비교하는 데 적합한 지표로 활용될 수 있다(Velez et al., 2007). 본 연구에서는 세 지표는 서로 다른 측면에서 모델의 분류 성능을 평가하므로, 본 연구에서는 이들을 종합적으로 고려하여 모형의 예측력을 검증하였다.

3. 적용 결과

3.1 통합 수문-생태 모델의 정확도 평가

본 연구에서는 ‘흰수마자’를 대상으로 GLM, RF, GBM, XGboost, KNN, 그리고 MaxEnt 기반의 통합 수문-생태 모델을 구축하여 대상 어종의 분포 예측에 대한 정확도를 평가하였다. 멸종위기 어종인 흰수마자의 경우 관측 데이터가 현저하게 부족하여 데이터의 불균형을 해소하기 위해 3가지 데이터 증강 기법을 사용하였으며, Fig. 4는 데이터 증강 기법과 알고리즘에 따른 통합 수문-생태 모델의 정확도를 비교한 것이다.

Fig. 4. Evaluation of Individual Model Prediction Accuracy Across Various Resampling Methods

../../Resources/KSCE/Ksce.2025.45.6.0687/fig4.png

각 데이터 증강기법에 따른 개별 알고리즘의 AUC 결과를 분석하였을 때, SMOTE 기법은 0.765~0.844 범위, ADASYN 기법은 0.759~0.858, 그리고 SMOTEENN 조건에서는 0.768~0.866 범위로 평가되었다. SMOTEENN을 적용한 XGBoost 알고리즘에서 AUC는 0.866으로 가장 높은 것으로 나타났다. AUC는 모든 알고리즘에서 수용가능한 수준인 0.7이상으로 평가되었으나, GLM과 MaxEnt는 리샘플링 방법과 관계없이 다른 개별 모델보다 상대적으로 AUC 값이 낮은 것으로 평가되었다.

SMOTE 조건에서 TSS는 0.141~0.624, ADASYN 조건에서는 0.087~0.624, 그리고 SMOTEENN 조건에서는 0.258~0.696 범위로 평가되었다. AUC와 마찬가지로 TSS 지표에서도 SMOTEENN 기법이 상대적으로 가장 우수한 것으로 나타났다. RF에서의 TSS 값이 매우 낮게 평가되었으며, TSS가 가장 높은 단일 모델은 KNN으로 0.624~0.696의 범위로 평가되었다. TSS는 전반적으로 AUC보다 낮은 값을 보여 민감도와 특이도를 동시에 최적화하는 데 어려움이 있음을 나타냈다.

Balanced accuracy 지표 역시 SMOTEENN 조건에서 0.629~0.848 범위로 평가되어, 가장 결과가 우수한 것으로 나타났다. 특히 XGboost는 SMOETENN 조건에서 성능이 가장 크게 좋아지는 것으로 나타났으며, RF와 GBM에서도 유사한 성능 향상 결과가 나타났다. 이러한 결과는 멸종위기종과 같이 불균형 자료를 대상으로 하는 경우, 회귀 기반 모형보다 트리 기반 및 비모수적 방법의 모델에 SMOTEENN 샘플링 기법을 결합하면 더욱 강건한 예측력을 가질 수 있음을 의미한다.

Table 2는 3가지 증강 기법 별 6개의 개별 모델을 앙상블한 모델의 결과를 나타낸다. SMOTE 조건에서 AUC, TSS, Balanced accuracy는 각각 0.837, 0.484, 0.742로 평가되었고, ADASYN에서는 0.826, 0.428, 0.714로 평가되었다. 마지막으로 SMOTEENN 기법을 적용하였을 때 AUC는 0.862, TSS는 0.544, 그리고 Balanced accuracy는 0.722로 평가되어, 개별 모델의 결과와 동일하게 복합 리샘플링 기법인 SMOTEENN에서의 결과가 가장 우수한 것으로 나타났다.

Table 2. Evaluation of Ensemble Model Prediction Accuracy Across Various Resampling Methods
Performance AUC TSS Balanced Accuracy
SMOTE 0.837 0.484 0.742
ADASYN 0.826 0.428 0.714
SMOTEENN 0.862 0.544 0.772

본 연구에서 사용한 세 가지 데이터 증강 기법(SMOTE, ADASYN, SMOTEENN)에 따른 모델 성능을 비교하였을 때, SMOTEENN 적용 시 평균 AUC와 TSS가 가장 높게 나타나, 노이즈 제거가 모델의 일반화 성능을 향상시킨 것으로 판단된다. 반면, ADASYN의 경우 일부 모델(KNN, XGBoost)에서는 성능 향상이 있었으나, 소수 클래스의 경계 근처에서 과도한 합성으로 인해 TSS와 Balanced Accuracy의 변동성이 증가하는 경향을 보였다. 마지막으로 SMOTE는 상대적으로 안정적인 성능을 보였으며, 단순한 보간 방식으로 인한 과적합 위험이 낮지만 복잡한 결정 경계를 충분히 반영하지 못하는 한계가 있었다. 이러한 결과는 불균형 데이터의 리샘플링이 모델의 판별력 향상에 기여함을 보여주지만, 동시에 리샘플링 기법의 선택이 모델 특성과 데이터 구조에 따라 다르게 작용할 수 있음을 시사한다. 따라서 생태모델링에서 증강 기법 적용 시에는 모델별 민감도와 데이터의 분포 특성을 고려한 신중한 접근이 필요하다.

3.2 통합 수문-생태 모델을 활용한 멸종위기종 분포 예측

Fig. 5는 성능이 가장 우수한 SMOTEENN 리샘플링을 적용한 개별 예측모델(GLM, RF, GBM, XGBoost, KNN, MaxEnt)을 이용하여 흰수마자의 출현 적합도 분포를 공간적으로 나타낸 결과이다. 비모수 기법을 기반으로 하는 GLM과 MaxEnt는 상대적으로 넓은 지역에 걸쳐 출현 적합도를 예측한 반면 RF, GBM, XGBoost와 같은 트리 기반 모형은 특정 하천 구간에서만 높은 출현 적합도를 집중적으로 예측하는 경향을 보였다. 개별 모델에 따른 예측 경향의 차이는 모델의 알고리즘적 특성과 변수 처리 방식에서 기인하는 것으로 판단된다.

Fig. 5. The Suitability Distribution Map of ‘Gobiobotia naktongensis Mori’ by Individual Model. (a) GLM, (b) RF, (c) GBM, (d) XGB, (e) KNN, (f) MaxEnt

../../Resources/KSCE/Ksce.2025.45.6.0687/fig5.png

Fig. 6은 위에서 도출한 6개의 개별 모델을 앙상블하여 적용한 흰수마자의 출현 적합도 분포를 나타낸다. 앙상블 결과는 개별 모델의 불확실성을 줄이고 공통된 신호를 반영함으로써 보다 안정적인 공간 분포를 제시하였다. 흰수마자가 채집되었던 낙동강 본류(안동댐 하류) 및 일부 지류(감천, 위천, 그리고 남강)의 중·하류 구간에서 출현 적합도가 0.6 이상으로 높게 나타났으나, 내성천과 황강에서의 출현 적합도는 0.4 이하로 낮게 나타났다. 내성천의 경우 2011년 이후로 채집이 되지 않았으며, 황강의 경우 2022년에만 채집되었기 때문에 상대적으로 출현 적합도가 낮게 모의된 것으로 판단된다. 본 연구의 대상어종인 흰수마자는 멸종위기 어종이기 때문에, 전반적으로 출현 적합도가 낮게 모의되는 것으로 나타났으나 출현 적합도가 0.6 이상으로 도출되는 일부 하천이 존재하였으며, 이러한 결과는 해당 종의 주요 서식 가능 영역을 도출할 수 있음을 시사한다. 또한 Fig. 5와 비교하였을 때, 단일 모델에 의존할 경우 나타날 수 있는 과대 추정의 문제를 보완하고, 멸종위기종의 잠재적 분포 예측에 있어 앙상블 접근법의 유효성을 보여준다.

Fig. 6. The Suitability Distribution Map of ‘Gobiobotia naktongensis Mori’ by Integrated Hydro-Ecological Ensemble Model

../../Resources/KSCE/Ksce.2025.45.6.0687/fig6.png

4. 결 론

본 연구에서는 멸종위기종인 흰수마자(Gobiobotia naktongensis Mori)를 대상으로 유역모델과 종분포모델을 결합한 통합 수문-생태모델을 구축하고, 데이터 불균형 문제를 완화하기 위한 다양한 리샘플링 기법을 적용하여 흰수마자 분포 예측의 정확도를 평가하였다. 그 결과, 소수 클래스 데이터 사이를 보간하고 노이즈를 제거하는 SMOTEENN 리샘플링 기법을 적용하였을 때 성능이 가장 우수하였다. 개별 모델 평가 결과, 트리 기반 및 비모수적 알고리즘(RF, GBM, XGBoost)의 AUC 결과가 우수하였으나, 민감도와 특이도를 기반으로 산정하는 TSS, Balanced accuracy 성능은 떨어지는 것으로 나타났다. 반면, 회귀 기반 모형(GLM, MaxEnt)의 경우 AUC 결과는 상대적으로 낮으나 0.7 이상으로 수용 가능한 수준이었고 TSS, Balanced accuracy는 상대적으로 높은 것으로 평가되었다. 최종적으로 앙상블 모델은 SMOTEENN을 적용하여 6개의 개별 모델을 모두 결합하여 구축하였으며, 그 결과 AUC는 0.862, TSS는 0.544, Balanced Accuracy는 0.772로 평가되어 단일 모델의 불확실성을 줄이고 안정적인 예측력을 확보하는 것으로 분석되었다.

흰수마자의 출현 적합도 분포를 예측하였을 때 GLM과 MaxEnt 모델은 넓은 지역에 걸쳐 출현 적합도를 과대 추정하는 경향이 있었으며, RF, GBM, XGboost 모델은 출현 적합도가 특정 하천 구간에 집중되어 있으며 그 외 하천에서는 매우 낮게 예측하는 경향이 있었다. 앙상블 모델을 이용하여 흰수마자의 출현 적합도 분포를 예측한 결과 낙동강 본류(안동댐 하류)와 주요 지류(감천, 위천, 남강)의 중·하류 구간에서 흰수마자의 출현 적합도가 높게 나타났다. 이는 단일 모델의 불확실성을 보완하고 과대 추정 및 과대 적합을 보완하여 멸종 위기어종의 핵심 서식 가능 구간을 예측함에 기여할 수 있을 것으로 판단된다.

본 연구는 멸종위기 야생생물 I급 생물을 대상으로 불균형한 생태자료를 해결하기 위해 3가지 데이터 리샘플링 기법을 적용하였으며, 6개의 개별 모델과 앙상블 모델링을 통해 멸종위기종의 분포 예측 정확도를 효과적으로 향상시킬 수 있음을 확인하였다. 뿐만 아니라, 본 연구의 방법은 공간 환경변수 뿐만 아니라 유역단위의 수문-수질 환경변수를 적용하는 통합 수문-생태 모델링으로, 향후 하천 생태계 보전 및 관리 전략 수립을 위한 과학적 근거로 활용될 수 있을 것으로 판단된다.

Acknowledgements

This study was supported by the Institution-Funded Research Program of the Korea Institute of Civil Engineering and Building Technology (KICT), funded by the Ministry of Science and ICT (Project No. 20250258-001, “Development of Elemental Technologies for River Management Based on the New Normal in Response to Water Issues”).

References

1 
Allan J. D., Flecker A. S. (1993). "Biodiversity conservation in running waters", BioScience, Vol. 43, No. 1, pp. 32-43DOI
2 
Allouche O., Tsoar A., Kadmon R. (2006). "Assessing the accuracy of species distribution models: prevalence, kappa and the true skill statistic (TSS)", Journal of Applied Ecology, Vol. 43, No. 6, pp. 1223-1232DOI
3 
An K. G., Lee S. J. (2018). "Ecological health assessments, conservation and management in korea using fish multimetric model", Korean Journal of Ecology and Environment, Vol. 51, No. 1, pp. 86-95DOI
4 
Araújo M. B., New M. (2007). "Ensemble forecasting of species distributions", Trends in Ecology & Evolution, Vol. 22, No. 1, pp. 42-47DOI
5 
Arnold J. G., Williams J. R., Srinivasan R., King K. W. (1996), SWAT manual
6 
Batista G. E. A. P. A., Prati R. C., Monard M. C. (2004). "A study of the behavior of several methods for balancing machine learning training data", SIGKDD Explorations, Vol. 6, No. 1, pp. 20-29DOI
7 
Breiman L. (2001). "Random forests", Machine Learning, Vol. 45, No. 1, pp. 5-32Google Search
8 
Chawla N. V., Bowyer K. W., Hall L. O., Kegelmeyer W. P. (2002). "SMOTE: Synthetic minority over-sampling technique", Journal of Artificial Intelligence Research, Vol. 16, pp. 321-357DOI
9 
Chen T., Guestrin C. (2016). "XGBoost: A scalable tree boosting system", pp. 785-794DOI
10 
Cover T., Hart P. (1967). "Nearest neighbor pattern classification", IEEE Transactions on Information Theory, Vol. 13, No. 1, pp. 21-27DOI
11 
Elith J., Leathwick J. R. (2009). "Species distribution models: ecological explanation and prediction across space and time", Annual Review of Ecology, Evolution, and Systematics, Vol. 40, No. 1, pp. 677-697DOI
12 
Franklin J. (2009), Mapping species distributions spatial inference and prediction
13 
Friedman J. H. (2001). "Greedy function approximation: A gradient boosting machine", Annals of Statistics, Vol. 29, No. 5, pp. 1189-1232DOI
14 
Guisan A., Zimmermann N. E. (2000). "Predictive habitat distribution models in ecology", Ecological Modelling, Vol. 135, No. 2-3, pp. 147-186DOI
15 
Hanley J. A., McNeil B. J. (1982). "The meaning and use of the area under a receiver operating characteristic (ROC) curve", Radiology, Vol. 143, No. 1, pp. 29-36DOI
16 
He H., Bai Y., Garcia E. A., Li S. (2008). "ADASYN: Adaptive synthetic sampling approach for imbalanced learning", pp. 1322-1328DOI
17 
(2019), Intergovernmental science-policy platform on biodiversity and ecosystem services. Summary for policy makers of the global assessment report on biodiversity and ecosystem services of the intergovernmental science-policy platform on biodiversity and ecosystem services
18 
Jones J. P. G., Andriahajania F. B., Hockley N. J. (2005). "A multidisciplinary approach to assessing the sustainability of freshwater crayfish harvesting in Madagascar", Conservation Biology, Vol. 19, pp. 1863-1871DOI
19 
Jung S. W., Kim Y. H., Lee J. H., Kim D. G., Kim M. K., Kim H. M. (2022). "Biodiversity changes and community characteristics of benthic macroinvertebrates in weir section of the Nakdong River, South Korea", Korean Journal of Environment and Ecology, Vol. 36, No. 2, pp. 150-164DOI
20 
Kim H. G., Cha Y., Cho K. H. (2024). "Projected climate change impact on cyanobacterial bloom phenology in temperate rivers based on temperature dependency", Water Research, Vol. 249, pp. 120928DOI
21 
Ko M.-H., Lee I.-R., Bang I.-C. (2013). "Egg development and early life history of endangered species Gobiobotia naktongensis (Pisces: Cyprinidae)", Korean Journal of Ichthyology, Vol. 25, pp. 9-16Google Search
22 
Kwon H., Seo C., Park C. (2012). "Development of species distribution models and evaluation of species richness in Jirisan region", Korean Society for Geospatial Information System, Vol. 20, No. 3, pp. 11-18DOI
23 
(2010), Artificial Rearing and Restoration of Endangered Species of Four Rivers
24 
Nelder J. A., Wedderburn R. W. M. (1972). "Generalized linear models", Journal of the Royal Statistical Society: Series A (General), Vol. 135, No. 3, pp. 370-384Google Search
25 
(2018), A comprehensive guide to endangered wildlife
26 
(2015), Stream/River Ecosystem Survey and Health Assessment (Ⅷ), pp. 693
27 
Phillips S. J., Anderson R. P., Schapire R. E. (2006). "Maximum entropy modeling of species geographic distributions", Ecological Modelling, Vol. 190, No. 3-4, pp. 231-259DOI
28 
Thorp J. H. (2014). "Metamorphosis in river ecology: from reaches to macrosystems", Freshwater Biology, Vol. 59, No. 1, pp. 200-210DOI
29 
Thuiller W., Lafourcade B., Engler R., Araújo M. B. (2009). "BIOMOD-a platform for ensemble forecasting of species distributions", Ecography, Vol. 32, No. 3, pp. 369-373DOI
30 
Velez D. R., White B. C., Motsinger A. A., Bush W. S., Ritchie M. D., Williams S. M., Moore J. H. (2007). "A balanced accuracy function for epistasis modeling in imbalanced datasets using multifactor dimensionality reduction", Genetic Epidemiology: the Official Publication of the International Genetic Epidemiology Society, Vol. 31, No. 4, pp. 306-315DOI
31 
(2023), Global Risk 2023