Mobile QR Code QR CODE : Journal of the Korean Society of Civil Engineers

  1. 조선대학교 공학기술연구원 박사후연구원 (Chosun University · wjden1655@naver.com)
  2. 종신회원 · 호남대학교 토목환경공학과 조교수 (Honam University · ohsj@homan.ac.kr)
  3. 종신회원 · 호남대학교 토목환경공학과 조교수 (Honam University · seogeo@honam.ac.kr)



개인형이동장치, 상관계수, 로지스틱 회귀분석, XGBoost, 변수 중요도
Personal mobility, Correlation coefficient, Logistic regression, XGBoost, Feature importance

1. 서 론

지속적인 자동차 증가에 따라 자동차 중심의 정책들이 지속되어 왔으며 이러한 정책들로 인한 차량 중심의 도시개발과 이용은 교통사고 등 여러 가지 교통문제, 교통혼잡으로 인한 사회적 비용 증가, 대기오염, 소음 등 환경문제를 더욱 심각하게 만들고 있다. 교통혼잡을 줄이고자 교통수요 관리의 중요성이 강조되고 있으며, 교통체계의 패러다임도 점차 자동차 중심에서 대중교통 및 보행자 중심으로 변화하고 있으며, 친환경적이고 지속가능한 교통수단에 대한 관심이 증가하고 있다. 이러한 변화과정에서 플랫폼을 기반으로 한 공유경제 비즈니스 아이템으로 전기 동력의 개인형 이동장치가 도시 내 교통수단으로 가치를 인정받고 있으며, 중단거리 이동수단 및 대중교통 연계수단으로 활용되고 있다. 개인형 이동장치란 도로교통법에 의하면 원동기장치 자전거 중 운행 속도가 25 km/h 미만, 자체 중량이 30 kg 미만인 행정안전부령으로 정하는 이동장치를 의미한다. 국내 개인형 이동장치의 시장규모는 판매감소세를 가정했을 때 2050년까지 누적 보급량은 91만대, 판매 증가세를 가정했을 대 약 460만대로 나타났으며, 개인형 이동장치의 이용량은 2050년에 최대 190억인/km로 나타났다(Wu et al., 2022). 그러나 개인형 이동장치의 이용이 점차 증가하며 불편 및 안전에 대한 부정적인 여론이 확산되고 있고, 2017년~2021년 약 5년간 개인형 이동장치로 인한 교통사고가 3,421건 발생하고 45명의 사망자를 발생시켜 새로운 문제점으로 대두되고 있다. 이에 개인형 이동장치에 대한 안전계획, 안전사업, 무단방치에 대한 조치 등에 대한 내용을 제시하며 개인형 이동장치 이용자의 안전증진 및 이용문화 정착을 위한 실질적인 방안에 대한 논의가 필요하다. 본 연구에서는 광주광역시 개인형 이동장치 이용문화 개선 방안을 제시하고자 개인형 이동장치의 교통사고에 대한 분석하고자 한다. 이를 위하여 한국도로교통공단에서 제공하는 개인형 이동장치 사고 자료를 확보하였고, 이를 전처리하여 로지스틱 회귀 모델과 XGBoost 모델을 이용하여 예측 모델을 구축하고 그 결과를 비교분석하였다.

2. 선행연구

2.1 개인형 이동장치

개인형 이동장치는 「도로교통법」에 따라 차에 속하는 1~2인의 사람을 운송하는 교통수단으로 이륜차, 원동기장치자전거, 자전거가 있으며, 본 연구의 대상인 개인형 이동장치는 원동기장치자전거에 속하는 장치로서 전기를 동력으로 최대 시속 25 km/h 미만의 1인용 교통수단을 의미한다. 2020년 12월 10일 도로교통법 개정 이후 안전기준을 충족한 개인형 이동장치에만 자전거도로 통행을 허용했고, 그에 맞춰 자전거와 동일한 통행 방법과 운전자 주의의무 등을 적용해왔으나 청소년들의 개인형 이동장치 이용 증가에 대한 우려와 운전자 주의 의무 위반에 대한 제재가 없어 실효성이 없다는 문제가 제기되었다. 자전거 및 개인형 이동장치 이용 인구가 증가함에 따라 현실에 맞지 않는 주차 및 정차금지 관련 규정을 정비하며 개인형 이동장치 운행상의 안전을 강화하기 위하여 운전 면허를 받은 사람만 개인형 이동장치를 운전할 수 있도록 하고 인명 보호장구 미착용 등 의무 위반 시 처벌할 수 있는 근거를 마련하기 위해 관련 조항을 신설하였다.

2.2 개인형 이동장치 관련 연구

Lee et al.(2024)은 2017~2022년 PM (Personal Mobility, 이하 PM) 교통사고 데이터를 활용하여 가해·피해 사고를 구분한 뒤 Classification Tree 모형을 적용해 사고심각도 영향요인을 분석하였다. 분석 결과, PM이 가해자인 경우에는 법규위반·추돌사고, 피해자인 경우에는 가해 운전자의 연령·행동유형·도로선형·강우가 사고심각도에 크게 영향을 미치는 것으로 나타났으며, PM 사고는 유형별로 전혀 다른 위험요인 조합이 작동하며, 단일 규제보다 유형별 맞춤 대응이 필요함을 강조하였다.

Lee et al.(2025)은 서울시 2021년 PM 사고 자료를 대상으로 경찰서 관할구역–지역 특성이 교차된 데이터 구조를 고려하기 위해 교차분류 다층모형을 적용하였다. 사고심각도를 높이는 주요 원인으로는 헬멧 미착용·비정형 도로공간·고령 운전자로 나타났으며, 산업지역·지하철역 밀집지역은 사고심각도를 낮추는 효과가 있음을 제시하였다. 경찰 1인당 담당 면적이 클수록 중대사고 가능성이 증가하는 구조적 한계를 제시하면서 PM 사고는 개별 행태요인뿐 아니라 공간·행정적 요인이 복합적으로 작동하는 다층적 현상임을 제시하였다.

Park et al.(2025)은 경찰청 PM 사고 데이터를 활용해 CCA (Canonical Correlation Analysis)와 연관규칙 기반 네트워크 분석을 수행하여 사고유형별 위험요인의 결합 구조를 도출하였다. 분석 결과, PM 사고는 횡단보도·교차로·보도 사고로 군집화되었으며, 각 군집에서 심각도별로 다른 상호작용 요인 조합이 나타나는 것으로 확인되었다. 연구는 PM 사고가 단일 변수의 영향이 아닌 복수 요인의 상호작용 구조 속에서 발생한다는 점을 강조하며, 군집별 위험 패턴에 최적화된 세분화된 정책 설계의 필요성을 제시하였다.

Yang et al.(2025)은 국내 PM 사고를 가해자·피해자·단독사고 등으로 세분화하고 Random Forest, SHAP (SHapley Additive exPalnations) 기법을 적용하여 사고유형별 심각도 영향요인을 규명하였다. 분석 결과, 가해 PM 사고는 청소년 법규위반·고령 보행자 충돌, 단독사고는 전도·전복과 중·고령 이용자의 조작 미숙, 피해 PM 사고는 교차로 발생·가해 운전자 행태가 사고심각도를 크게 높이는 요인으로 제시하였다. 또한, PM 사고가 유형별로 위험요인이 뚜렷하게 분화된다는 점을 확인하며, 연령·행동·도로환경에 기반한 유형별 맞춤 관리 전략의 필요성을 강조하였다.

Tamakloe et al.(2024)은 개인형 이동장치 이용자 과실 사고 중 사망 및 중상으로 이어지는 핵심 위험요인을 규명하기 위해 서울시 개인형 이동장치 사고자료를 분석하였다. CCA (Cluster Correspondence Analysis)와 ARM (Association Rules Mining)을 결합한 2단계 분석을 통해 개인형 이동장치와 차량, 보행자, 단독 사고의 세 유형으로 구분하여 분석하였다. 분석 결과 건조 노면, 남성 이용자, 평일 사고는 모든 유형에서 사고 치명도와 공통적으로 연관되었음을 확인하였고, 차량충돌 사고에서는 과속과 측면 충돌이, 보행자 사고에서는 횡단보도에서의 교통법규 위반, 단독 사고에서는 주간 시간대의 불안전한 주행행태를 주요 원인으로 확인하였다. 연구는 개인형 이동장치의 안전성 향상을 위해 공학적 시설 개선, 인식 제고 캠페인, 안전교육 강화, 단속의 필요성을 제안하였다.

3. 연구 방법

3.1 개인형 이동장치 데이터셋 및 데이터 전처리

개인형 이동장치 사고 원인 분석을 위한 데이터셋은 한국도로교통공단에서 수집한 최근 3년 동안(2021년~2023년)의 자료를 이용하였다. 변수는 연도(year), 사고발생시간(time), 사고유형(accident type), 노면상태(road condition), 도로형태(road type), 성별(sex), 위반법규내용(traffic violation), 피해정도(severity of injury) 등 9개로 구성되었고, 샘플 수는 총 469개로 구성되었다(Table 1).

Table 1. The Personal Mobility Device Accident Data in Gwangju Metropolitan City from 2021 to 2023

Year Time Accident type Road condition Road type Sex Age Traffic violation Severity of injury
2021 21:00 single dry crossroad female 26 breach of the duty of safe driving (B) slightly injury (SI)
2021 17:20 single dry single male 15 B injury
2021 22:40 single dry crossroad male 19 B SI
2021 22:10 single dry single male 26 B SI
2021 05:35 single dry crossroad male 29 B SI
... ... ... ... ... ... ... ... ...
2023 21:20 car to car dry crossroad male 17 B serious injury
2023 13:45 car to car dry crosswalk male 26 signal violation (S) SI
2023 13:45 car to car dry crosswalk male 26 S SI
2023 21:39 car to car dry crossroad male 55 S SI
2023 12:24 car to car dry crossroad male 54 B injury

최근 3년간 광주광역시에서 발생한 개인형 이동장치 사고 발생 빈도, 유형, 탑승 인원 수 등에 대한 자료를 정리하여 Fig. 12에 나타냈다. Fig. 1은 연도별 PM 사고 횟수로 빨간색은 PM 탑승자가 가해자인 경우이고, 파란색은 PM 탑승자가 피해자인 경우이다. Fig. 2는 연도별 PM 탑승자 교통사고 피해정도를 나타냈다. PM의 최대 탑승 인원은 1인으로 규정되어 있지만, 2인 이상이 타는 경우가 많다. 따라서, Fig. 12의 연도별 사고횟수가 다르다. 개인형 이동장치 사고 발생 횟수는 Fig. 1과 같이 2021년에 130건, 2022년에 138건, 2023년에 153건으로 매년 증가하는 것으로 나타났다. 개인형 이동장치 교통사고 피해자의 경우 3년 동안 발생한 사망사고는 없었으며 중상자 수는 증가 후 감소하는 것으로 나타났으나, 경상자의 경우 매년 증가추세에 있는 것으로 나타났다. 개인형 이동장치 사고 발생 심각도를 Eq. (1)의 대물피해환산법(EPDO, Equivalent Property Damage Only)을 이용하여 분석하였다. 여기서, a는 사망, b는 중상(serious injury), c는 경상(slight injury), d는 부상(injury)을 나타낸다. 연도별 개인형 이동장치의 EPDO를 산정한 결과 2021년 482, 2022년은 527, 2023년은 549로 지속적으로 사고 심각도가 증가하는 것으로 나타났다(Fig. 2). 이는 교통사고 발생건수 및 부상 정도의 상향에 따른 것으로 판단된다.

(1)
$EPDO=(12\times a)+(6\times b)+(3\times c)+(1\times d)$

Fig. 1. The Number of Personal Mobility Device Accidents between 2021 and 2023

../../Resources/KSCE/Ksce.2026.46.1.0077/fig1.png

Fig. 2. The Number of PM Accidents between 2021 and 2023 according to Severity of Injury

../../Resources/KSCE/Ksce.2026.46.1.0077/fig2.png

개인형 이동장치 사고 원인 분석을 위한 예측 모델 구축을 위하여 Table 1의 데이터 전처리를 수행하였다. 우선 연도는 사고 원인 분석과 관련 없으므로 입력변수에서 제외하였고, 부상정도를 출력변수로 선정하였다. 샘플 수를 고려하여 수치형 변수는 이상치 제거 등의 전처리를 수행하지 않았고, 단지 사고 발생 시간을 아침, 점심, 저녁, 새벽 등 시간대로 구간화(binning)한 변수를 생성하였다. 컴퓨터는 문자열을 인식하지 못하기 때문에 숫자형으로 변환해야하며 이 과정을 인코딩(encoding)이라 한다. 범주형 변수 인코딩은 원핫 인코딩(one-hot encoding), 라벨 인코딩(label encoding), 타겟 인코딩(target encoding) 등 다양하다. 원핫 인코딩은 변수 값이 0과 1로만 표현되고, 변수의 크기를 벡터의 차원으로 가정하고 해당하는 값에 ‘1’을, 다른 값에는 ‘0’을 부여하는 표현 방식이다. 컴퓨터는 숫자 크기에 따라 변수의 크기를 구분할 수 있으나, 원핫 인코딩의 경우 값의 크기나 순서 의미가 없어 정보 손실을 최소화할 수 있으며, 비교적 정확한 판단을 수행할 수 있다. 하지만, 변수 인덱스가 많을 경우 차원이 커진다는 단점이 있다. 라벨 인코딩의 경우 변수의 값을 알파벳 순서에 따라 정수를 할당하는 방법이다. 원핫 인코딩과 비교할 때, 변수 차원의 수는 단순하지만, 변수 인덱스 별로 대소관계가 있다고 판단할 수 있다. 따라서 인코딩을 수행할 때 명목형 범주형 변수인지 순서형 범주형 변수인지 구분하여 사용해야한다. 본 연구에서는 출력 변수인 부상정도가 각 값의 크기를 비교할 수 있고, 출력변수별 가중치를 산정하기 위해 라벨 인코딩을 활용하여 범주형 변수를 인코딩하였다.

3.2 상관 분석

입력변수 8개와 출력변수의 관계를 정량적으로 분석하기 위해 피어슨 상관관계(Pearson’s correlation)을 분석하였다. 상관관계는 Eq. (2)을 이용한다. 여기서 n은 샘플의 크기, $x_{i}$와 $y_{i}$는 i번째 샘플값이며 $\overline{x}$와 $\overline{y}$는 x와 y의 평균이다. 분모는 공분산을 분자는 표준편차의 곱을 의미한다. 즉, 피어슨 상관계수는 두 변수의 공분산과 표준편차의 곱 사이의 비율이다. 상관관계 분석 결과는 Table 2과 같다. 그 결과 성별-시간대에서는 약 -0.42의 상관도로 가장 높은 역상관 관계를 나타냈고, 위반법규-도로형태에서 약 0.4의 상관도를 나타냈다. 출력변수인 부상정도는 사고유형과 가장 높은 상관관계를 나타냈다.

(2)
$r_{xy}=\dfrac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}\sqrt{\sum_{i=1}^{n}\left(y_{i}-\overline{y}\right)^{2}}}$

Table 2. The Result of Pearson’s Correlation with Personal Mobility Data

Time Time zone Age Accident type Road condition Road type Sex Traffic violation Severity of injury
Time 1 - - - - - - - -
Time zone -0.084 1 - - - - - - -
Age 0.26 -0.073 1 - - - - - -
Accident type -0.06 0.064 -0.19 1 - - - - -
Road condition 0.0057 0.12 -0.094 -0.0094 1 - - - -
Road type -0.01 -0.075 -0.044 -0.27 0.016 1 - - -
Sex -0.027 -0.42 0.18 0.014 -0.14 -0.028 1 - -
Traffic violation 0.013 -0.035 -0.059 -0.043 -0.0004 0.4 0.42 1 -
Severity of injury 0.021 0.046 -0.058 0.094 0.028 -0.0078 -0.025 -0.022 1

4. 부상 정도에 따른 예측 모델

4.1 Logistic Regression

로지스틱 회귀분석(Logistic regression, LR)은 분류와 회귀 문제를 해결할 수 있는 가장 쉬운 도구중 하나로 데이터가 어떤 범주에 속할 확률을 0과 1사이의 값으로 예측하고 그 확률에 따라 가능성이 더 큰 범주에 속하는 것으로 분류하는 알고리즘이다. LR은 Eq. (3)와 같이 오즈 판별식에 로그를 씌운 형태인 로지트 함수와 로지트 함수의 역함수인 로지스틱 함수를 이용하여 확률을 계산한다. 이때 w는 가중치, x는 독립변수이다.

(3)

$\log(\dfrac{p}{1-p})=w_{0}x_{0}+w_{1}x_{1}\cdots w_{m}x_{m}=\sum_{i=0}^{m}w_{i}x_{i}=X$

$h(X)=\dfrac{1}{1+e^{-x}}$

4.2 XGBoost

XGBoost(eXtreme Gradient Boost Machine, XG)는 GBM(Gradient Boost Machine)을 개선한 방식으로 병렬처리가 가능하며 잔차를 이용해 모델학습하고 과적합을 방지하기 위한 매개변수들이 추가된 알고리즘이다. 다른 트리 기반 알고리즘들과 달리 CART(Classification and regression tree) 모델을 기반으로 학습한다. Eq. (4)은 CART가 학습할 때 이용하는 식으로 입력변수 x와 출력변수 y로 구성되었을 때, $\hat{y}$는 데이터 x의 예측값, K는 사용된 CART의 개수, f는 CART 모델을 나타낸다(Chen and Guestrin, 2016). CART 모델을 훈련시키기 위한 목적함수는 Eq. (5)과 같으며 $l(y_{i}, \hat{y_{i}})$는 실제값과 예측값의 차, $\omega$는 과적합을 방지하기 위한 모델의 정규화 함수를 나타낸다. XGBoost의 첨가방식과 테일러 방정식을 사용하여 t 단계의 목적함수를 표현하면 Eq. (5)과 같다. XGBoost는 Eq. (5)을 이용하여 모델 최적화 및 최적의 분할지점을 탐색하여 모델을 학습한다.

(4)
$\hat{y_{i}}=\sum_{k=1}^{K}f_{k}(x_{i})$
(5)
$obj(\theta)=\sum_{i}^{n}l(y_{i}, \hat{y_{i}})+\sum_{k=1}^{K}\omega(f_{k})$

4.3 모델 평가 방법

분류의 평가지표는 주로 2가지 방법을 사용한다. 첫째는 각 행 데이터가 양성인지 음성인지를 예측값으로 삼아 평가하고, 다른 하나는 각 행 데이터가 양성일 확률을 예측값으로 삼는다. 전자는 정확도, 오차율, 정밀도, 재현율 등에 해당되고, 후자는 AUC (Area Under the Curve)와 ROC (Receiver Operating Characteristics)가 있다. 정확도, 정밀도, 재현율은 Eq. (6)과 같다. 여기서, TP (True Positive)는 모델이 양성이라 예측하고, 실제로 양성인 경우이고, TN (True Negative)는 모델이 음성이라고 예측하고, 실제로 음성인 경우이다. FP (False Positive)는 모델이 양성이라고 예측하고, 실제로 음성인 경우이고, FN (False Negative)는 모델이 음성이라 예측하고 실제로 양성인 경우이다. 이 산출 값들을 Eq. (6)을 이용하여 정확도, 정밀도, 재형율을 도출할 수 있다. AUC와 ROC는 여러 절단값의 변화를 보면서 모델의 성능 변화를 시각적으로 확인할 수 있는 방법으로, ROC는 그래프 안에 도시되는 선으로 그래프 좌측 상단에 가까울수록 좋은 성능을 나타내며, AUC는 ROC 곡선 아래의 영역을 의미하고 1에 가까울수록 예측력이 우수한 분류기로 평가된다(Fig. 3).

(6)

$accuracy=\dfrac{TP+TN}{TP+TN+FP+FN}$

$precision=\dfrac{TP}{TP+FP}$

$recall=\dfrac{TP}{TP+FN}$

Fig. 3. AUC-ROC Curve

../../Resources/KSCE/Ksce.2026.46.1.0077/fig3.png

4.4 연구결과

개인형 이동장치 사고원인 분석 및 예측 모델 분석을 위해서 본 연구에서는 샘플 수를 고려하여 훈련 및 시험 모델을 9:1, 8:2, 7:3, 6:4, 5:5의 비율로 구성하였고, 각각 로지스틱 회귀 모델과 XGBoost 모델로 분석하였다. 9:1 비율의 경우 훈련모델의 샘플 수는 422개, 시험모델은 47개, 8:2의 경우 훈련모델 375개, 시험모델 94개, 7:3의 경우 훈련모델 382개, 시험모델 141개, 6:4의 경우 훈련모델 281개, 시험모델 188개, 5:5의 경우 훈련모델 234개, 시험모델 235개로 구성되었다. 각 라이브러리의 초매개변수는 매뉴얼 방식을 이용하였고, 모델의 성능은 AUC, 정확도, 정밀도, 재현율을 산정하였다. 또한, 예측 모델의 훈련 및 시험모델에 할당된 샘플 수 그리고 출력 변수 불균형을 고려하여 Micro 방식을 이용하여 AUC, 정밀도, 재현율을 산정하였고, 모든 예측성능을 비교할 수 있게 성능은 백분율이 아닌 비율로 산정하였다. 그 결과 AUC, 정확도, 정밀도, 재현율은 Fig. 4, Table 3과 같고, Micro-AUC, 정밀도, 재현율은 Fig. 5, Table 4와 같다.

로지스틱 회귀 모델의 경우 정밀도는 훈련모델에서 0.233~ 0.402의 성능 분포를 보였고, 시험모델에서는 0.234~0.568의 분포를 보였고, 특히 7:3과 6:4 데이터 구성에서 가장 높은 예측 성능을 나타냈지만, 과적합 현상이 높게 나타났다. 재현율은 훈련 및 시험모델 구성에 따른 대부분 모델에서 약 0.33의 일정한 성능을 나타냈다. AUC의 경우 훈련모델은 0.607~0.627, 시험모델은 0.541~0.608의 성능 분포를 보였고, 5:5의 훈련 및 시험 구성에서 가장 높은 성능을 나타냈다. 정확도는 훈련모델에서 0.698~0.701, 시험모델에서 0.702~0.707의 분포를 보였고, LR의 예측 성능 중 정확도가 가장 높게 나타났다.

XGBoost 모델의 경우 정밀도는 훈련모델에서 0.280~0.878의 성능 분포를 보였고, 시험모델에서는 0.232~0.568의 분포를 나타냈다. 5:5 데이터 구성에서 가장 낮은 성능을 보였고, 7:3에서 가장 높은 성능을 나타냈다. 재현율의 경우 훈련모델의 경우 0.466~0.608의 분포를 나타냈고, 시험모델의 경우 0.323~0.356의 분포를 나타냈다. XG의 예측 성능 중 가장 낮은 성능 분포를 나타냈다. AUC의 경우 훈련은 0.891~0.941의 분포를 시험모델에서는 0.538~0.562의 분포를 나타냈다. AUC의 경우 8:2 훈련모델과 7:3 시험모델에서 가장 높은 AUC 성능을 나타냈다. 또한 LR과 달리 4개의 성능 지표 중 AUC가 가장 높은 성능을 나타냈다. 정확도의 경우 훈련모델에서는 0.758~0.813, 시험모델에서는 0.649~0.691의 성능을 나타냈다.

Fig. 4. The Results of Prediction Performance for LR and XG according to Ratio about Train and Test Model

../../Resources/KSCE/Ksce.2026.46.1.0077/fig4.png

Table 3. The Results of Prediction Performance for Logistic Regression and XGBoost

Precision Recall Accuracy ACU
train test train test train test train test
LR 9:1 0.234 0.275 0.333 0.333 0.701 0.702 0.607 0.608
LR 8:2 0.234 0.402 0.332 0.356 0.699 0.702 0.619 0.555
LR 7:3 0.402 0.402 0.340 0.348 0.701 0.702 0.627 0.541
LR 6:4 0.233 0.568 0.332 0.347 0.698 0.707 0.623 0.561
LR 5:5 0.234 0.234 0.333 0.333 0.701 0.702 0.627 0.572
XG 9:1 0.868 0.232 0.466 0.323 0.758 0.681 0.915 0.538
XG 8:2 0.859 0.447 0.608 0.362 0.813 0.649 0.941 0.540
XG 7:3 0.878 0.433 0.572 0.356 0.805 0.695 0.934 0.562
XG 6:4 0.796 0.568 0.486 0.344 0.758 0.691 0.891 0.552
XG 5:5 0.280 0.280 0.507 0.346 0.778 0.672 0.915 0.554

사용한 샘플 수와 출력변수의 클래스 불균형을 고려하여 Micro-정밀도, Micro-재현율, Micro-AUC를 산정하였다. 그 결과 로지스틱 회귀 모델의 Micro-정밀도는 훈련모델 0.698~0.701, 시험모델 0.701~0.702로 과적합 현상이 동일하게 나타났고, XGBoost 모델의 경우 훈련모델 0.672~0.813, 시험모델 0.649~0.695로 나타났다. 로지스틱 회귀 모델의 Micro-재현율은 훈련모델 0.698~0.701, 시험모델 0.702~0.707로 나타났다. XGBoost 모델의 경우 훈련모델 0.758~0.813, 시험모델 0.649~0.695로 나타났다. 로지스틱 회귀 모델의 Micro-AUC는 훈련모델 0.816~0.823, 시험모델 0.791~0.814로 나타났다. XGBoost 모델의 경우 훈련모델 0.21~0.949, 시험 모델에서는 0.783~0.944로 나타났다. 전체적으로 예측 성능은 AUC가 다른 분류 지표들보다 높은 성능을 나타냈고, 로지스틱 회귀 모델보다 XGBoost 모델이 더 우수한 성능을 나타냈다.

Fig. 5. The Prediction Performance of Micro AUC, Recall, Precision of Train and Test Model

../../Resources/KSCE/Ksce.2026.46.1.0077/fig5.png

Table 4. The Prediction Performance of Micro AUC, Recall, Precision of Train and Test Model

Precision Recall ACU ACU
train test train test train test train test
LR 9:1 0.701 0.701 0.701 0.702 0.816 0.814 0.607 0.608
LR 8:2 0.699 0.702 0.699 0.702 0.820 0.798 0.619 0.555
LR 7:3 0.701 0.702 0.701 0.702 0.823 0.791 0.627 0.541
LR 6:4 0.698 0.707 0.698 0.707 0.822 0.799 0.623 0.561
LR 5:5 0.701 0.702 0.701 0.702 0.821 0.801 0.627 0.572
XG 9:1 0.758 0.681 0.758 0.681 0.931 0.784 0.915 0.538
XG 8:2 0.813 0.649 0.813 0.649 0.949 0.783 0.941 0.540
XG 7:3 0.805 0.695 0.805 0.695 0.944 0.944 0.934 0.562
XG 6:4 0.758 0.691 0.758 0.691 0.921 0.795 0.891 0.552
XG 5:5 0.672 0.672 0.778 0.672 0.935 0.794 0.915 0.554

분류모델은 예측 모델이 답을 찾아갈 때 어떤 변수가 결과에 더 큰 영향을 미치는지, 얼마나 자주 사용되었는지를 분석하여 변수 중요도를 추정한다. 로지스틱 회귀 모델의 경우 각 독립변수가 종속변수에 미치는 영향력의 정도를 측정하는 가중치를 이용하고, XGBoost 모델의 경우에는 전체 모델에서 분기할 때 사용된 횟수, 분기할 때 얻는 정보 이득, 영향을 받은 샘플 등을 이용하여 변수 중요도를 산정한다. 본 연구에서는 로지스틱 회귀 모델의 경우 각 출력변수의 클래스(부상, 경상, 중상)에 따른 가중치를 산정하였고, XGBoost 모델의 경우 다중분류시 분기할 때 사용된 횟수를 이용하여 변수 중요도를 산정하였고 그 결과는 Table 5와 같다. 여기서, class 0은 부상, class 1은 경상, class 2는 중상을 의미한다. 로지스틱 회귀 모델 9:1 예측모델의 경우 부상과 경상의 변수 가중치는 사고유형이 가장 높고, 중상은 위반법규내용이 가장 높게 나타났다. 로지스틱 회귀 모델 8:2 예측모델 역시 부상과 경상의 경우 사고유형이 가장 높은 변수 가중치를 나타냈고, 중상의 경우 위반법규내용이 가장 높게 나타났다. 로지스틱 회귀 모델 7:3 예측모델은 모든 class에서 동일하게 사고유형이 가장 높은 변수 가중치를 나타냈다. 로지스틱 회귀 모델 6:4와 5:5 모델의 경우 부상과 경상은 사고유형이 가장 높은 가중치를 나타냈고, 중상의 경우 성별이 가장 높게 나타났다. XGBoost 모델를 이용한 모든 예측모델에서는 사고당시연령 변수가 가장 높은 변수중요도를 나타냈다. 이를 종합한 결과 사고 정도에 따른 차이는 있지만, 사고유형, 위반법규내용, 사고당시연령 등의 변수가 개인형 이동장치 사고의 요인 변수로 평가된다.

Table 5. The Feature Importance and Weights about Prediction Model

Prediction model/

output class

Time

Age

Time zone

Accident type

Road

condition

Road type

Sex

Traffic violation

LR 9:1

class 0

0.0046

-0.0004

0.0414

-0.4069

-0.1414

-0.0090

0.1671

0.0102

class 1

-0.0533

0.0003

0.0641

0.5015

0.0698

-0.1442

-0.3367

0.1470

class 2

0.0261

-0.0001

-0.1287

0.0626

0.0962

0.0818

-0.1641

-0.1760

LR 8:2

class 0

0.0029

-0.0006

0.0284

-0.3770

-0.1455

0.0167

0.1391

0.0109

class 1

-0.0646

0.0004

0.0904

0.5628

0.0602

-0.1615

-0.4344

0.1801

class 2

0.0361

0.0000

-0.1272

-0.0332

0.1034

0.0478

-0.0595

-0.2003

LR 7:3

class 0

-0.0092

-0.0011

0.0242

-0.5247

-0.1970

0.0267

0.1815

0.0299

class 1

-0.0501

0.0005

0.1042

0.4640

0.0630

-0.1105

-0.5872

0.1237

class 2

0.0399

0.0005

-0.1430

0.2330

0.1615

-0.0117

-0.0264

-0.1764

LR 6:4

class 0

-0.0088

-0.0007

0.0394

-0.4871

-0.1536

0.0421

0.2687

0.0329

class 1

-0.0481

0.0000

0.1153

0.4919

0.1853

-0.1430

-0.4983

0.0542

class 2

0.0380

0.0004

-0.1821

0.1623

-0.0099

-0.0046

-0.2274

-0.1389

LR 5:5

class 0

0.0024

-0.0003

0.0442

-0.6229

-0.0714

-0.0434

0.2965

0.0968

class 1

-0.0501

-0.0001

0.0616

0.4647

0.1374

-0.0357

-0.3485

-0.0898

class 2

0.0263

-0.0001

-0.1439

0.3395

-0.0549

0.0132

-0.4042

-0.1055

XG 9:1

0.5344

0.6133

0.5015

0.5140

0.5875

0.4561

0.3877

0.5218

XG 8:2

0.4850

0.5462

0.4241

0.4728

0.3978

0.4072

0.3436

0.4212

XG 7:3

0.4922

0.5313

0.4153

0.5006

0.4321

0.4055

0.3501

0.4685

XG 6:4

0.5888

0.6295

0.5471

0.5922

0.5239

0.4503

0.3845

0.5442

XG 5:5

0.5386

0.5398

0.4228

0.5293

0.3338

0.3386

0.3010

0.3992

5. 결 론

본 연구에서는 광주광역시에서 2021년부터 2023년까지 약 3년간 발생한 개인형 이동장치 교통사고 자료를 수집 및 분석하여 사고 요인을 규명하고 로지스틱 회귀 모델과 XGBoost 모델을 이용하여 부상 정도를 예측하는 모델을 구축하였다. 사고 분석 결과, 개인형 이동장치 교통사고는 매년 증가하고 있으며, 부상정도 또한 EPDO 기준으로 상승 추세를 보였다. 상관관계 분석 결과, 부상 정도는 도로형태와 가장 높은 상관관계를 보였으며, 위반법규와 사고유형 또한 주요 영향 변수로 확인되었다. 예측 모델 비교 결과 로지스틱 회귀 모델과 XGBoost 모델 모두 일정 수준 이상의 분류 성능을 보였으나, XGBoost 모델의 AUC 값이 로지스틱 회귀 모델 보다 높게 나타나 예측 정확도가 더 우수한 것으로 평가되었다. 로지스틱 회귀 모델의 경우 정밀도와 재현율에서 과적합 경향이 일부 관찰되었으며, XGBoost 모델은 훈련 데이터의 분포에 민감하게 반응하는 경향을 보였다. 변수 중요도 분석 결과, 로지스틱 회귀 모델에서는 사고 유형과 위반법규내용이 주요 영향 변수로 나타났고, XGBoost 모델에서는 사고 당시 연령 변수가 가장 높은 중요도를 나타냈다. 이를 종합하면 개인형 이동장치 사고의 주요 원인은 사고유형, 위반법규, 연령 등으로 요약될 수 있으며, 이러한 변수들은 사고의 심각도와 밀접한 관련이 있을 것으로 판단된다. 본 연구는 개인형 이동장치 이용자 특성에 따른 사고예방 정책 수립과 안전대책 마련을 위한 기초자료로 활용될 수 있을 것이다. 향후 연구에서는 표본 확충, 공간정보 기반 사고밀도 분석, 그리고 사고 심각도에 영향을 미치는 외부요인의 통합적 고려가 필요할 것으로 판단된다.

Acknowledgement

This research was supported by the Regional Innovation System & Education(RISE) program through the (Gwangju RISE Center), funded by the Ministry of Education(MOE) and the (Gwangju Metropolitan City), Republic of Korea (2025-RISE-05-016).

References

1 
Chen T., Guestrin C. (2016). "XGBoost: A scalable tree boosting system", pp. 785-794DOI
2 
Lee D. Y., Hong D. H., Maeng G. Y. (2024). "Factors affecting the severity of traffic crashes involving personal mobility devices (PM)", International Journal of Highway Engineering, Vol. 26, No. 5, pp. 131-141DOI
3 
Lee M. S., Park H. C., Maeng G. Y., Lee J. Y. (2025). "Influential factors of personal mobility accident severity using a cross-classified multilevel model", International Journal of Highway Engineering, Vol. 27, No. 3, pp. 91-102DOI
4 
Park J. S., Park J. M., Song M. H., Kim J. H., Lee S. H. (2025). "Associated factors influencing accident severity across personal mobility (PM) accident types: CCA and network analysis approach", Knowledge Management Research, Vol. 26, No. 3, pp. 261-284DOI
5 
Tamakloe R., Zhang K., Hossain A., Kim I. H., Park S. H. (2024). "Critical risk factors associated with fatal/severe crash outcomes in personal mobility device rider at-fault crashes: A two-step inter-cluster rule mining technique", Accident Analysis and Prevention, Vol. 199DOI
6 
Wu S. K., Jeng G. O., Chae C., Lee D. Y. (2022), Inovation strategy for transport system after COVID-19 – Part 4. Enhancement of Personal Mobility Eco-SystemGoogle Search
7 
Yang Y. C., Park S. J., Lee D. Y., Jeng G. O. (2025). "Analysis of factors influencing the severity of traffic crashes by type of traffic crashes on personal mobility using random forest model and SHAP technique", International Journal of Highway Engineering, Vol. 27, No. 1, pp. 89-99DOI