ํ์ง์
(Jisu Hong)
1
์ ์ธ์ง
(Se-Jin Jeon)
2โ
-
์ ํ์โค์์ฃผ๋ํ๊ต ๊ฑด์ค์์คํ
๊ณตํ๊ณผ, ๊ณตํ์์ฌ
(Ajou Universityโคhjjs1201@ajou.ac.kr)
-
์ข
์ ํ์โค๊ต์ ์ ์โค์์ฃผ๋ํ๊ต ๊ฑด์ค์์คํ
๊ณตํ๊ณผ ๊ต์, ๊ณตํ๋ฐ์ฌ
(Corresponding AuthorโคAjou Universityโคconc@ajou.ac.kr)
Copyright ยฉ 2021 by the Korean Society of Civil Engineers
ํค์๋
๋จธ์ ๋ฌ๋, ์์ฌ๊ฒฐ์ ๋๋ฌด, ๋๋คํฌ๋ ์คํธ, ๊ต๋ ์์ ๋ฑ๊ธ, ์ ์ง๊ด๋ฆฌ
Key words
Machine learning, Decision tree, Random forest, Safety grade of bridges, Maintenance
1. ์ ๋ก
์์ค๋ฌผ ๊ณต์ฉ์ฐ์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๋
ธํํ๋ ์์ค๋ฌผ์ ์์ ์ฑ ํ๋ณด๋ฅผ ์ํด ์๋ฐฉ์ ์ ์ง๊ด๋ฆฌ ์์คํ
๊ตฌ์ถ์ ๋ํ ์ค์์ฑ์ด ๊ฐ์กฐ๋๊ณ ์๋ค. ๊ตญํ ๊ตํต๋ถ ์ ๊ตญ๊ต๋ํ์ค๋ฐ์ดํฐ(MOLIT, 2021b)์ ๋ฐ๋ฅด๋ฉด Fig. 1๊ณผ ๊ฐ์ด ๊ณต์ฉ์ฐ์ 30๋
์ด์์ธ ๋
ธํ ๊ต๋์ ์๊ฐ 2030๋
์๋ ์ ์ฒด ๊ต๋์ 42.5%๋ฅผ ์ฐจ์งํ๋ ๋ฑ ๋ณด์๋ณด๊ฐ์ด ํ์ํ ๊ต๋๋ค์ด ์ ์ฐจ ์ฆ๊ฐํ ๊ฒ์ผ๋ก
์์๋๋ค. ๋ฐ๋ผ์ ๊ต๋์ ์์ ์ฑ ๋ฐ ์ฌ์ฉ์ฑ ์ ํ์ ๋ณด์๋ณด๊ฐ ๋น์ฉ ์ฆ๊ฐ์ ๋๋นํ ์ ์ ์ ์ ์ง๊ด๋ฆฌ๊ฐ ํ์ํ๋ค.
โ์์ค๋ฌผ์ ์์ ๋ฐ ์ ์ง๊ด๋ฆฌ์ ๊ดํ ํน๋ณ๋ฒโ(์ดํ ์์๋ฒ) (MOLIT, 2021c)์ ๋ฐ๋ผ ์ 1~3์ข
์์ค๋ฌผ์ ํด๋นํ๋ ๊ต๋์ ์์ ๋ฑ๊ธ์ ๋ฐ๋ผ ์ ๊ฒ ๋ฐ ์ง๋จ์ ์ฃผ๊ธฐ์ ์ผ๋ก ์ค์ํด์ผ ํ๋ค. ์ ๊ฒ ๋ฐ ์ง๋จ์ ์ข
๋ฅ๋ก๋ ์ ๊ธฐ์์ ์ ๊ฒ(Periodic
safety inspection), ์ ๋ฐ์์ ์ ๊ฒ(Full safety inspection), ๊ทธ๋ฆฌ๊ณ ์ ๋ฐ์์ ์ง๋จ(Full safety examination)์ด
์๋ค. ์ ๊ธฐ์์ ์ ๊ฒ์ ์ธ๊ด์กฐ์ฌ ์์ค์ ์ ๊ฒ์ด๋ฉฐ, ์ ๋ฐ์์ ์ ๊ฒ์ ๋ฉด๋ฐํ ์ธ๊ด์กฐ์ฌ์ ํจ๊ป ๊ฐ๋จํ ์ธก์ ๋ฐ ์ํ์ ์ค์ํ๋ ์ ๊ฒ์ด๋ค. ํํธ, ์ ๋ฐ์์ ์ง๋จ์์๋
์ ๋ฐํ ์ธ๊ด์กฐ์ฌ์ ๋๋ถ์ด ๊ฐ์ข
์ธก์ ยท์ํ์ฅ๋น๋ฅผ ์ด์ฉํ์ฌ ์์ค๋ฌผ์ ์ํ ๋ฐ ์์ ์ฑ ํ๊ฐ์ ๋ํ ์์ธ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๋ค. ๊ต๋์ ์์ ๋ฑ๊ธ์ ์ ๊ฒ ๋ฐ ์ง๋จ
๊ฒฐ๊ณผ์ ๋ฐ๋ผ A(์ฐ์), B(์ํธ), C(๋ณดํต), D(๋ฏธํก), E(๋ถ๋)์ ์ด 5๋จ๊ณ๋ก ๋ถ๋ฅ๋๋ฉฐ, ์์ ๋ฑ๊ธ์ ๋ฐ๋ฅธ ์ ๊ฒ ๋ฐ ์ง๋จ ์ฃผ๊ธฐ๋ Table 1์ ๋ํ๋ด์๋ค(MOLIT, 2021a).
์ต๊ทผ ์ ์๊ต ๋ถ๊ดด ์ฌ๊ณ ์์ ๋ณด๋ฏ์ด ์ค๊ณต ํ 30๋
์ด์ ๊ฒฝ๊ณผ๋ ๋
ธํ ๊ต๋์ ๋ํ ์ฐ๋ ค๊ฐ ์ปค์ง๋ฉด์ ์ ๊ฒ, ์ง๋จ ๋ฐ ๋ณด์๋ณด๊ฐ์ ํฌํจํ ์ ์ง๊ด๋ฆฌ ๋์ฑ
์
ํฉ๋ฆฌ์ ์ผ๋ก ์๋ฆฝํด์ผ ํ ํ์์ฑ์ด ๋์ฑ ๊ฐ์กฐ๋๊ณ ์๋ค(Yonhapnews, 2023). ๊ทธ๋ฐ๋ฐ, ๊ต๋์ ์์ ์ฑ๊ณผ ์ฌ์ฉ์ฑ์ ์ฃผ๋ก ์์ ๋ฑ๊ธ์ ํตํด ๊ด๋ฆฌํ๊ณ ์์ผ๋ฏ๋ก, ์ ๋ขฐํ ์ ์๋ ์์ ๋ฑ๊ธ์ ํ์ ์ ๋งค์ฐ ์ค์ํ๋ค. ๋ํ, ์ฃผ๊ธฐ์ ์ธ ์์ ์ ๊ฒ
๋ฐ ์ง๋จ ํ๋์ ๋ฐ๋ฅธ ๋ณด์๋ณด๊ฐ ์กฐ์น๋ ์์ค๋ฌผ์ ์์ ๋๋ฅผ ์ ์งํ๊ฑฐ๋ ์ํฅ์ํค๊ธฐ ์ํด ํ์์ ์ผ๋ก ์๊ตฌ๋๋ฏ๋ก(Kang et al., 2016) ์์ค๋ฌผ ์ ์ง๊ด๋ฆฌ์ ์์ด ์ ๊ฒ ์๊ธฐ๋ฅผ ์ค์ํ๋ ๊ฒ์ด ์ค์ํ๋ค. ๊ทธ๋ฌ๋ ๊ตญ๋ด์ ๊ฒฝ์ฐ ์ฌํ ์ ์ง๊ด๋ฆฌ์ ์ด์ ์ด ๋ง์ถ์ด์ ธ ์์ด ๊ด๋ฆฌ์์คํ
์ ๊ฐ๋ฐ์ด ๋ฏธํกํ๊ณ ,
ํํฉ ์
๋ ฅ๊ณผ ์ด์ ์ํฉ ๋ํ ๋ถ์ ํํ๊ฒ ๊ด๋ฆฌ๋๊ณ ์๋ค(Kim and Yoon, 2018). 2021๋
๊ธฐ์ค์ผ๋ก ์ผ๋ฐ๊ตญ๋์์ ์์นํ ์์๋ฒ ์ ์ฉ ๋์์ธ ์ 1~3์ข
์์ค๋ฌผ์ ํด๋นํ๋ ๊ต๋ 5,600๊ฐ ์ค ์ ๊ฒ ๋ฏธ์ค์ ๋ฐ ์ ๊ฒ ์๊ธฐ ๋ฏธ์ค์ ๊ต๋์
101๊ฐ๋ก 1.8%์ ํด๋น๋๋ค. ๋ํ ์์๋ฒ ๋์์ด ์๋ ๊ต๋์ ์์ ์ ๊ฒ ๋ฐ ์ง๋จ์ด ํ์์ ์ด์ง ์์ผ๋ฏ๋ก ์ฅ๊ธฐ๊ฐ ์์ ์ ๊ฒ์ ์ค์ํ์ง ์์ ์ถ๊ฐ์ ์ธ ๊ต๋๋ค๋
๋ค์ ์กด์ฌํ๋ค. ์ด๋ฌํ ๊ต๋๋ค์ ๊ต๋์ ์ฑ๋ฅ ๋ฐ ์ํ ํ์
์ ํตํ ์ ์ ์ ๋ณด์๋ณด๊ฐ ์กฐ์น๋ฅผ ์ทจํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์์ ์ฑ ๋ฐ ๋ด๊ตฌ์ฑ์ ์ ํ๊ฐ ์ฐ๋ ค๋๋ค.
๋ํ, 2018๋
์์๋ฒ ๊ฐ์ ์ ๋ฐ๋ผ ๊ธฐ์กด์ ์์๋ฒ ๋์์ด ์๋์๋ ์๊ท๋ชจ ๊ต๋๋ ๊ณต์ฉ๊ธฐ๊ฐ 10๋
์ด ๊ฒฝ๊ณผ๋๋ฉด ์์๋ฒ ๋์์ธ ์ 3์ข
์์ค๋ฌผ๋ก ์๋ก์ด ์ง์ ๋์๋ค.
์ด๋ก ์ธํด ์์๋ฒ์ ๋ฐ๋ฅธ ๋์ ๊ต๋์ด ์ฆ๊ฐํ๋ฉด์ ์์ ์ ๊ฒ ๋์ ๊ต๋์ด ์ ์ฐจ ์ฆ๊ฐํ๊ณ ์์์๋ ๊ด๋ฆฌ ์ธ๋ ฅ ๋ถ์กฑ ๋ฐ ์ ์ง๊ด๋ฆฌ ์์ฐ ๋ถ์กฑ ๋ฑ์ ๋ฌธ์ ๋ก ์ ์ ํ๊ณ
์ฒด๊ณ์ ์ธ ์์ ๊ด๋ฆฌ๊ฐ ์ด๋ฃจ์ด์ง์ง ์๊ณ ์๋ ์ค์ ์ด๋ค(Lee et al., 2019a). ๊ทธ๋ฆฌ๊ณ ๊ตญ๋ด์ ํด์ธ์ ๊ต๋ ์ ๊ฒ ์ฃผ๊ธฐ๋ฅผ ๋น๊ตํด์ ์ดํด๋ณด๋ฉด ๊ตญ๋ด์ ์ ๊ฒ ์ฃผ๊ธฐ๊ฐ ๋น๊ต์ ์งง์์ ์ด ๋ํ ๊ด๋ฆฌ ์ธ๋ ฅ ๋ถ์กฑ ํ์์ ์ฌํ์ํค๊ณ ์๋ค(Lee and Kim, 2015). ์ด์ฒ๋ผ ์ ๊ฒ ๋์ ๊ต๋์ ์ฆ๊ฐ์ ์งง์ ์ ๊ฒ ์ฃผ๊ธฐ์ ๋ฐ๋ฅธ ์ ๋ฌธ ์ธ๋ ฅ ๋ฐ ๋น์ฉ ๋ถ์กฑ์ผ๋ก ์ธํด ํฉ๋ฆฌ์ ์ธ ์ ๊ฒ ๋ฐ ์ง๋จ์ด ์ด๋ ค์ด ์ค์ ์ด๋ค(Kang, 2016).
์ด์ ๋ํ ๋์ฑ
์ผ๋ก ์ธ๋ ฅ ๋์ฒด ๋ฐ ๋น์ฉ ์ ๊ฐ์ ์ํด ๊ต๋์ ์ ์ง๊ด๋ฆฌ ์ฒด๊ณ์ ์ธ๊ณต์ง๋ฅ๊ณผ ํ๋ฅ ๋ก ์ ๊ธฐ๋ฒ ๋ฑ์ ์ด์ฉํ์ฌ ๊ต๋์ ๋ถ์ฌ๋ณ ์ดํ๋๋ฅผ ์์ธกํ๋
์ฐ๊ตฌ ๋ฑ์ด ์งํ๋๊ณ ์๋ค.
๊ตญ๋ด์์๋ ๊ต๋ ์์ ์ ๋๋ฅผ ์์ธกํ๋ ์ธ๊ณต์ ๊ฒฝ๋ง ๋ชจ๋ธ(Oh et al., 2010)๊ณผ ๋ฒ ์ด์ง์ ๊ธฐ๋ฒ์ ํตํ ๊ต๋์ ๋ถ์ฌ ์ํ ์์ธก ๋ชจ๋ธ(Lee et al., 2018)์ด ์ ์๋ ๋ฐ ์๋ค. ํด์ธ์ ์ฐ๊ตฌ๋ก๋ ์ธ๊ณต์ง๋ฅ์ ์ด์ฉํ ๊ต๋ ๋ถ์ฌ๋ณ ์ํ๋ฑ๊ธ ์์ธก(Bektas et al., 2013; Nguyen and Dinh, 2019) ๋ฑ์ด ์๋ค. ์ด์ฒ๋ผ ๊ต๋ ๋ถ์ฌ๋ณ ์ํ ๋ฐ ์์ ์ ๋๋ฅผ ์์ธกํ๋ ค๋ ์ฐ๊ตฌ๋ ๋ค์ ์กด์ฌํ์ง๋ง, ๋ถ์ฌ๋ณ ์ํ๋ ์์ ๋ฑ๊ธ๊ณผ ๊ฐ์ด ๊ต๋ ์ ์ฒด์ ์์ ์ฑ ๋ฐ ๋ด๊ตฌ์ฑ์
๋ํํ๋ค๊ณ ๋ณด๊ธฐ ์ด๋ ต๋ค. ํํธ ๊ต๋ ์ํ ์ง์(BCI: Bridge Condition Index)์ ์์ธก ๋ชจ๋ธ ์ฐ๊ตฌ(Martinez et al., 2020)๋ ์กด์ฌํ๋๋ฐ, ๊ต๋ ์ํ ์ง์๋ ์์น๋ก ํํ๋์ด ์์ด ์ด์ ์ ํฉํ ๋จธ์ ๋ฌ๋์ ํ๊ท๊ธฐ๋ฒ์ ์ฌ์ฉํ ๋ฐ ์๋ค. ํ์ง๋ง ๊ตญ๋ด ๊ต๋์์ ์ฌ์ฉํ๋ ์์ ๋ฑ๊ธ์
์์น๋ก ํํ๋์ง ์๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ํ๊ท๊ธฐ๋ฒ์ ์ ์ฉํ๋ ๊ฒ์ ์ ํฉํ์ง ์๋ค. ๋ค๋ง ๊ตญ๋ด์์ ๊ท์น ๊ธฐ๋ฐ ๋ถ๋ฅ ๊ธฐ๋ฒ์ผ๋ก ๊ต๋์ ์์ ๋ฑ๊ธ์ ์ถ์ ํ๋ ๋ฐฉ๋ฒ(Chung et al., 2016)๋ ์๋๋ ๋ฐ ์์ผ๋ฉฐ, ๊ต๋ ๋ฑ๊ธ์ ์์ด C๋ฑ๊ธ ์ดํ ๊ต๋์ P(Poor)๋ก, A์ B๋ฑ๊ธ์ G(Good)๋ก ๋ถ๋ฅํ์ฌ ๋ ๊ฐ์ง๋ก ํตํฉํ๊ณ , ์ด๋ฅผ ์ด์ง
๋ถ๋ฅ๋ฅผ ํตํด ์์ธกํ์๋ค. ๊ทธ๋ฌ๋ A์ B๋ฑ๊ธ์ ๊ฐ ๋ฑ๊ธ์ ํด๋น๋๋ ๊ต๋ ์๊ฐ ๋ง์ผ๋ฉฐ, ๊ต๋ ์ ์ง๊ด๋ฆฌ ์ธก๋ฉด์ ์์ด ๋ฑ๊ธ๋ณ๋ก ์ ์ ํ ์ ์ง๊ด๋ฆฌ ์์ฐ ๋ฐฐ๋ถ
๋ฐ ๋ณด์๋ณด๊ฐ ์กฐ์น๊ฐ ์๊ตฌ๋๊ธฐ ๋๋ฌธ์ A์ B๋ฑ๊ธ๋ ๊ตฌ๋ถํ์ฌ ์์ธกํ๋ ๊ฒ์ด ๋ฐ๋์งํ๋ค. ์ด๋ ๋์์ 2๊ฐ์ง ์ข
๋ฅ๋ก๋ง ๊ตฌ๋ถํ๋ ๋น๊ต์ ๋จ์ํ ์ด์ง ๋ถ๋ฅ
์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ ๋ฐ ๋ฐ๋ฅด๋ ํ๊ณ๋ก ๋ณผ ์ ์๋ค.
๋ฐ๋ผ์, ์ด๋ฌํ ๊ธฐ์กด ์ฐ๊ตฌ์ ํ๊ณ์ ์ ๊ทน๋ณตํ๊ณ ์ ์ด ์ฐ๊ตฌ์์๋ ์์ ์ ๊ฒ ๋ฏธ์ค์ ๋ฐ ์ฃผ๊ธฐ ๋ฏธ์ค์ ๊ต๋์ ์กฐ์ํ ์์ ๋ฑ๊ธ ํ์
๋ฐ ํน์ ์๊ธฐ์ ์์ ๋ฑ๊ธ
์์ธก์ ํตํ ์ ์ ์ ์ด๊ณ ๊ฒฝ์ ์ ์ธ ์ ์ง๊ด๋ฆฌ ๊ณํ์ ์๋ฆฝํ๊ธฐ ์ํด ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ๊ต๋์ ํฉ๋ฆฌ์ ์ธ ์์ ๋ฑ๊ธ ์์ธก ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ณ ์ ํ์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก
๋จธ์ ๋ฌ๋์ ์์ฌ๊ฒฐ์ ๋๋ฌด ๋ฐ ๋๋คํฌ๋ ์คํธ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ ๋ค์ค ๋ถ๋ฅ ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ๊ต๋์ ์์ ๋ฑ๊ธ์ A๋ฑ๊ธ, B๋ฑ๊ธ๊ณผ C, D๋ฑ๊ธ์ผ๋ก ๋๋์ด ์์ธกํ๊ณ ,
๊ทธ๋ฌํ ์์ธก ์ฑ๋ฅ์ ๊ฐ์ข
์งํ๋ฅผ ํตํด ์ข
ํฉ์ ์ผ๋ก ํ๊ฐํ๊ณ ๋ถ์ํ์๋ค. Fig. 2๋ ์ด ์ฐ๊ตฌ์์ ๊ต๋ ์์ ๋ฑ๊ธ ์์ธก ๋ชจ๋ธ์ ๋์ถํ ๋ฐฉ๋ฒ๋ก ์ ์์ฝํ์ฌ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
Fig. 1. Bridges with a Service Period of More than 30 Years
Fig. 2. Development and Evaluation of Classification Model
Table 1. Status and Inspection/Examination Cycle According to Safety Grade
Grade
|
Status
|
Cycle
|
Periodic safety inspection
|
Full safety inspection
|
Full safety examination
|
A
|
The best condition without problems
|
More than every half a year
|
More than every 3 years
|
More than every 6 years
|
B
|
Minor damages in supplementary members
|
More than every 2 years
|
More than every 5 years
|
C
|
Minor damages in main members or extensive damages in supplementary members
|
D
|
Major damages in main members
|
More than 3 times per year
|
More than
every year
|
More than
every 4 years
|
E
|
Serious damages in main members and immediate prohibition of usage of the bridge
|
2. ๊ฒฐ์ ๋๋ฌด ๊ธฐ๋ฐ ๋ถ๋ฅ ๋ชจ๋ธ ๊ตฌ์ถ
2.1 ์์ฌ๊ฒฐ์ ๋๋ฌด ๋ฐ ๋๋คํฌ๋ ์คํธ
์ด ์ฐ๊ตฌ์์๋ 2021๋
์๋ฐ๊ธฐ ๊ธฐ์ค ์ ๊ตญ๊ต๋ํ์ค๋ฐ์ดํฐ(MOLIT, 2021b)์ ์์ค๋ฌผํตํฉ์ ๋ณด๊ด๋ฆฌ์์คํ
(FMS, 2021)์ ๊ต๋ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ ์ผ๋ฐ๊ตญ๋์ ๊ต๋ 8,850๊ฐ๋ฅผ ๋์์ผ๋ก ๋จธ์ ๋ฌ๋์ ๊ฒฐ์ ๋๋ฌด ๊ธฐ๋ฐ ๋ถ๋ฅ ๋ชจ๋ธ์ ๊ตฌ์ถํ์๋ค. ์ฌ๊ธฐ์ ๋จธ์ ๋ฌ๋์ด๋ ์ธ๊ณต์ง๋ฅ์ ํ
๋ถ์ผ๋ก ์ปดํจํฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ค์ค๋ก ํ์ตํ์ฌ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ ๊ธฐ๋ฒ์ด๋ค(Gรฉron, 2019). ์ ๊ตญ๊ต๋ํ์ค๋ฐ์ดํฐ์๋ ํน์ ํ ๋ฒ์ฃผ๋ก ๋๋์ด์ง๋ ๋ฒ์ฃผํ ๋ฐ์ดํฐ์ ์์น๋ก ํํ๋ ์ฐ์ํ ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ ํฌํจ๋์ด ์๊ธฐ ๋๋ฌธ์ ์ฐ์ํ๊ณผ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ฅผ
๋ชจ๋ ์ฌ์ฉํ ์ ์๋ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ์ด ํ์ํ๋ค. ๋ํ, ์์ธกํ๊ณ ์ ํ๋ ๋ชฉํ์ธ ์์ ๋ฑ๊ธ์ A, B, C, D, E๋ฑ๊ธ์ผ๋ก ๋๋์ด์ง๋ฏ๋ก ์ด์ง ๋ถ๋ฅ ๊ธฐ๋ฒ์
์ ์ ์น ์์ผ๋ฉฐ ๋ค์ค ๋ถ๋ฅ๊ฐ ๊ฐ๋ฅํด์ผ ํ๋ค. ๋ถ๋ฅ ์๊ณ ๋ฆฌ์ฆ์๋ ์ฐ์ํ๊ณผ ๋ฒ์ฃผํ ๋ฐ์ดํฐ ์ฌ์ฉ์ด ๊ฐ๋ฅํ๋ฉฐ ์ด์ง ๋ถ๋ฅ๊ฐ ๊ฐ๋ฅํ SVM(Support Vector
Machine), ๋ฒ์ฃผํ ๋ฐ์ดํฐ์ ์ฌ์ฉ๋ง ๊ฐ๋ฅํ๊ณ ์ด์ง ๋ถ๋ฅ๋ฅผ ํ ์ ์๋ ๋ก์ง์คํฑ ํ๊ท, ์ฐ์ํ๊ณผ ๋ฒ์ฃผํ ๋ฐ์ดํฐ ๋ชจ๋ ์ฌ์ฉ ๊ฐ๋ฅํ๋ฉฐ ๋ค์ค ๋ถ๋ฅ๊ฐ
๊ฐ๋ฅํ ๊ฒฐ์ ๋๋ฌด ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ ๋ฑ์ด ์๋ค(Scikit-learn developers, 2007-2022). ์ด ์ฐ๊ตฌ์์๋ ์ ๊ตญ๊ต๋ํ์ค๋ฐ์ดํฐ์ ๊ฐ์ฅ ์ ํฉํ๋ค๊ณ ํ๋จ๋๋ ๊ฒฐ์ ๋๋ฌด ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์๋ค.
๊ฒฐ์ ๋๋ฌด ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์๋ ๋ช ๊ฐ์ง ์ข
๋ฅ๊ฐ ์์ง๋ง ์ด ์ฐ๊ตฌ์์๋ ๊ฐ์ฅ ๋ํ์ ์ธ ์์ฌ๊ฒฐ์ ๋๋ฌด(Decision Tree)์ ๋๋คํฌ๋ ์คํธ(Random Forest)๋ฅผ
์ฌ์ฉํ์๋ค. ๋ ์๊ณ ๋ฆฌ์ฆ ๋ชจ๋ ๊ฒฐ์ ๋๋ฌด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ผ์ข
์ ๊ท์น์ ๋ง๋ค์ด ๋ถ์๋๊ฐ ๋ฎ์์ง๋ ๋ฐฉํฅ์ผ๋ก ๋์์ ์ขํ๋๊ฐ๋ฉด์ ๋ถ๋ฅํ๋ค. ์ด๋ ๋ณ์์ ๋ฐ๋ฅธ
๋ถ๋ฆฌ ๊ธฐ์ค์ ํตํด ๋ถ์๋๋ฅผ ๊ฐ์์ํค๋ ์ ๋๋ฅผ ๊ณ์ฐํ์ฌ ๋ถ๋ฅ ๋ฐ ์์ธก ์์
์ ํจ๊ณผ์ ์ธ ์ค์ํ ๋ณ์๋ฅผ ํ์ธํ ์ ์์ด ์ ์ฉํ๋ค(Kazemitabar et al., 2017). ๊ฒฐ์ ๋๋ฌด์ ๊ตฌ์กฐ๋ Fig. 3๊ณผ ๊ฐ์ผ๋ฉฐ, ๋ฃจํธ ๋
ธ๋(Root node)์์ ๋ถ๋ฅ๊ฐ ์์๋๊ณ ์ค๊ฐ ๋
ธ๋(Intermediate node)์์ ๋ณ์์ ๋ฐ๋ฅธ ๋ถ๋ฅ๊ฐ ์งํ๋ ํ ๋ง์ง๋ง์
๋ฆฌํ ๋
ธ๋(Leaf node)์์ ์ต์ข
์ ์ผ๋ก ๋ถ๋ฅ ๊ฒฐ๊ณผ๊ฐ ๋์ถ๋๋ค.
๊ทธ๋ฌ๋ ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๊ฒฝ์ฐ ๋จ์ผ ๊ฒฐ์ ๋๋ฌด๋ฅผ ์ฌ์ฉํ๋ฏ๋ก ๋๋ฌด ๊น์ด๊ฐ ๊น์ด์ง๋ฉด ๊ณผ์ ํฉ(Overfitting)์ด ๋ฐ์ํ์ฌ ์์ธก๋ ฅ์ด ์ ํ๋ ์ ์๋ค. ์ฌ๊ธฐ์
๊ณผ์ ํฉ์ด๋ ๋ชจ๋ธ ์์ฑ ์ ํ๋ จ ๋ฐ์ดํฐ(Training data)๋ฅผ ๊ณผ๋ํ๊ฒ ํ์ตํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ธกํ๋ ๋ฅ๋ ฅ์ด ์ ํ๋๋ ํ์์ ์๋ฏธํ๋ค. ์ด๋ฌํ
์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋จ์ ์ ๋ณด์ํ ๋๋คํฌ๋ ์คํธ๋ ์์๋ธ ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ๋ค์์ ๊ฒฐ์ ๋๋ฌด๋ฅผ ์์ฑํจ์ผ๋ก์จ ๋ค์์ฑ์ ํ๋ณดํ์ฌ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ์์๋ธ
๊ธฐ๋ฒ ์ค ๋ฐฐ๊น
(Bagging: Bootstrap aggregating)์ ์ฌ์ฉํ๋๋ฐ, ๋ฐฐ๊น
์ ๋ฐ์ดํฐ๋ฅผ ๋ฌด์์๋ก ์ ์ ํ์ฌ ๊ฒฐ์ ๋๋ฌด๋ฅผ ๋ค์ํ๊ฒ ์์ฑํ๋
๊ธฐ๋ฒ์ ์๋ฏธํ๋ค. ๋ฐ๋ผ์ ๋๋คํฌ๋ ์คํธ๋ Fig. 4์ ๊ฐ์ด ๋ฐฐ๊น
์ ์ด์ฉํ์ฌ ๋ค์์ ๊ฒฐ์ ๋๋ฌด๋ฅผ ๋ฌด์์๋ก ์์ฑํ๊ณ ๋ค์๊ฒฐ ๋๋ ํ๊ท ์ ๋ฐ๋ผ ๋ถ๋ฅํ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก์ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ ์ ์์ด ๋์ฒด๋ก ์์ฌ๊ฒฐ์ ๋๋ฌด๋ณด๋ค๋
์ฑ๋ฅ์ด ์ฐ์ํ๋ค. ๊ทธ๋ฌ๋ ๋ฐ์ดํฐ ์๊ฐ ๋ง์์ง๋ฉด ๋ถ์ ์์ ์๊ฐ์ด ๊ธธ์ด์ง๋ ๋จ์ ์ด ์๋ค(Gรฉron, 2019).
์ด๋ ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋๋คํฌ๋ ์คํธ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์๋๊ฐ ์ต๋ํ ๊ฐ์ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ถ๋ฆฌํ๋๋ก ํ์ต์ ์งํํ๋๋ฐ, ๊ทธ ๊ธฐ์ค์ผ๋ก ์ํธ๋กํผ(Entropy)์
์ง๋๊ณ์(Gini)๋ฅผ ์ฌ์ฉํ๋ค. ์ํธ๋กํผ๋ ๋ถ์๋๋ฅผ ์์นํํ ์งํ์ด๋ฉฐ ํ๋ฅ ๋ณ์์ ๋ถํ์ค์ฑ์ ์์น๋ก ๋ํ๋ธ ๊ฒ์ผ๋ก ์ (1)๋ก ์ฐ์ ํ๋ฉฐ, ์ํธ๋กํผ์ ์์น๊ฐ 1์ ๊ฐ๊น์ธ์๋ก ๋ถ์๋๊ฐ ๋๋ค. ์ง๋๊ณ์๋ ํ๋ฅ ๋ถํฌ๊ฐ ์ด๋ ๋ฒ์ฃผ์ ์น์ฐ์ณ ์๋ ์ ๋๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ผ๋ก ์ (2)๋ก ๋์ถํ ์ ์๋ค. ์ํธ๋กํผ์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ง๋๊ณ์๊ฐ 1์ ๊ฐ๊น์ธ์๋ก ๋ถ์๋๊ฐ ๋๋ค.
์ฌ๊ธฐ์, $A$๋ ๋ฒ์ฃผ ์ ์ฒด, $m$์ ๋ถ๋ฅํ ๋ฒ์ฃผ์ ์, $p_{k}$๋ ๋ฐ์ดํฐ๊ฐ $k$ ๋ฒ์ฃผ์ ์ํ ํ๋ฅ ์ด๋ค. ์ํธ๋กํผ์ ์ง๋๊ณ์๋ ํฐ ์ฐจ์ด๊ฐ
์์ผ๋, ์ง๋๊ณ์๋ ๊ณ์ฐ ์ log๋ฅผ ์ฌ์ฉํ์ง ์์ ์๋๊ฐ ๋น ๋ฅด๋ค. ๋ํ ์ง๋๊ณ์๋ ๊ฒฐ์ ๋๋ฌด์์ ๊ฐ์ฅ ๋น๋ฒํ ๋ฒ์ฃผ๋ก ๋ถ๋ฆฌํ๋ ๊ฒฝํฅ์ด ์์ง๋ง, ์ํธ๋กํผ์
๊ฒฝ์ฐ์๋ ์กฐ๊ธ ๋ ๊ท ํ์ด ์กํ ๊ฒฐ์ ๋๋ฌด๋ฅผ ์์ฑํ๋๋ก ํ์ฌ ์ฑ๋ฅ์ด ๋ ์ข์ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค(Provost and Fawcett, 2013). ์ผ๋ฐ์ ์ผ๋ก ๋น ๋ฅธ ๋ถ์์ ์ํด ์ง๋๊ณ์๋ฅผ ๋ง์ด ์ฌ์ฉํ๊ธฐ๋ ํ์ง๋ง, ์ด ์ฐ๊ตฌ์์๋ ๊ต๋์ ์์ ๋ฑ๊ธ์ ์ข ๋ ์ ํํ ์์ธกํ๊ธฐ ์ํด Scikit-learn์
ํ์ด์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ค ๋งค๊ฐ๋ณ์๋ค์ ์กฐํฉ์ ๋น๊ตํ๋ GridSearchCV๋ฅผ ์ด์ฉํ ๊ฒ์ฆ์ ํตํ์ฌ ์ํธ๋กํผ์ ์ง๋๊ณ์์ ๋ ์๊ณ ๋ฆฌ์ฆ ์ค์์ ๋ ๋ฐ์ด๋
์ฑ๋ฅ์ ๋ณด์ ํ ๊ฒ์ ๋ถ์๋ ๊ณ์ฐ ๊ธฐ์ค์ผ๋ก ์ฌ์ฉํ์๋ค(Scikit-learn developers, 2007-2022).
Fig. 3. Structure of Decision Tree-based Algorithm
Fig. 4. Structure of Random Forest Algorithm
2.2 ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
์ ์ ๋์ง ์์ ๋ฐ์ดํฐ์๋ ๊ฒฐ์ธก๊ฐ์ด๋ ์ด์๊ฐ์ด ์กด์ฌํ ์ ์๊ณ , ๋ถ๊ท ํํ ๋ฐ์ดํฐ ๋ถํฌ๋ก ์ธํ์ฌ ๋ชจ๋ธ ๊ฐ๋ฐ ์ ์ฑ๋ฅ์ด ์ ํ๋ ์๋ ์๋ค. ๋ฐ๋ผ์ ๋ถ๋ฅ
๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด์๋ ๊ฒฐ์ธก๊ฐ ์ ๊ฑฐ, ๋ณ์ ์ ๊ฑฐ, ๋ณ์ ์ถ์ ๋ฐ ์ถ๊ฐ, ๋ถ๊ท ํ ๋ฐ์ดํฐ์ ์ํ๋ง๊ณผ ๊ฐ์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ด ํ์ํ๋ค.
2.2.1 ๋ณ์ ์ถ๊ฐ, ์ ๊ฑฐ, ์ถ์ ๋ฐ ๋ค์ค๊ณต์ ์ฑ
์ ๊ตญ๊ต๋ํ์ค๋ฐ์ดํฐ์์ ์์ ๋ฑ๊ธ๊ณผ ๋ฌด๊ดํ ๋ณ์(๊ด๋ฆฌ๊ธฐ๊ด๋ช
, ๊ด๋ฆฌ๊ธฐ๊ด์ ํ๋ฒํธ, ๋ฐ์ดํฐ๊ธฐ์ค์ผ์) ๋ฐ ๊ฒฐ์ธก๊ฐ์ด ๋ง์ ๋ณ์(๊ต๋๋ณด์๋ณด๊ฐ๋ด์ญ, ๊ต๋๋ณด์๋ณด๊ฐ๋น์ฉ,
ํ๋ถํต๊ณผ์ ํ๋์ด)๋ ์ ๊ฑฐํ์๋ค. ์๋ฏธ๊ฐ ์ค๋ณต๋๋ ๋ณ์๋ค์ ํ ๊ฐ์ ๋ณ์๋ก ๋ํํ์๋๋ฐ, ์ฐจ๋ํตํํ์ค ๋ฐ ์ค๊ณํํ์ค์ ์ค๊ณํํ์ค์ผ๋ก, ์์ค๋ฌผ์ข
๋ณ๋ฑ๊ธ๊ตฌ๋ถ
๋ฐ ์ ๊ฒ์ ํ์ ์์ค๋ฌผ์ข
๋ณ๋ฑ๊ธ์ผ๋ก ํต์ผํ์๋ค. ๋ํ, ๋ณ์ ์ค ์ค๊ณต์ฐ๋์ ์ ๊ฒ์ผ์๋ ๋ ๋ณ์์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ์ฌ ๊ณต์ฉ๊ธฐ๊ฐ์ด๋ผ๋ ํ๋์ ๋ณ์๋ก ์ถ์ํ์๋ค.
ํํธ, ๊ณ ์ณ๊ฐ์ด ํ ๊ฐ์ธ ๋ณ์๋ค์ ๋ชจ๋ธ ํ์ต์ ์ํฅ์ ๋ฏธ์น์ง ์์ผ๋ฏ๋ก ์ ๊ฑฐํ๊ณ , ๊ณ ์ณ๊ฐ์ด ๊ณผ๋คํ๊ฒ ๋ง์ ๋ณ์๋ค์ ๋ชจ๋ธ์ ํ์ต ๋ฅ๋ ฅ์ ์ ํ์ํค๊ธฐ ๋๋ฌธ์
์ ๊ฑฐํ๊ฑฐ๋ ์ถ์ํด์ผ ํ๋ค. ๋จผ์ , ๊ณ ์ณ๊ฐ์ด ํ ๊ฐ์ธ ๋ณ์์ ํด๋นํ๋ ๋ด์ง์ค๊ณ์ ์ฉ์ฌ๋ถ์ ๋ด์ง์ฑ๋ฅํ๋ณด์ฌ๋ถ๋ ๋ชจ๋ ๊ต๋๋ค์ด ํด๋น ์์์ผ๋ก ๋ฐ์ดํฐ์์ ํ๊ธฐ๋์ด
์์ด์ ์ ๊ฑฐํ์๋ค. ์ต๊ทผ ์๊ณต๋ ์ผ๋ถ ๊ต๋๋ค์๋ ๋ด์ง์ค๊ณ๊ฐ ์ ์ฉ๋์์ ๊ฒ์ผ๋ก ์์๋๋ ํ๊ธฐ๊ฐ ๋๋ฝ๋ ๊ฒ์ผ๋ก ์ถ์ธก๋๋ค. ๋ํ, ๊ณ ์ณ๊ฐ์ด ๋ง์ ๋ณ์(์์ฌ์ง๋๋ก๋ช
,
์์ฌ์ง์ง๋ฒ, ์๊ตฐ๊ตฌ๋ช
, ์๋๋ช
, ๊ต๋์์์ ๊ฒฝ๋, ๊ต๋์์์ ์๋, ๊ต๋์ข
๋ฃ์ ๊ฒฝ๋, ๊ต๋์ข
๋ฃ์ ์๋, ์๋ถ๊ตฌ์กฐํ์) ์ค์์ ๋๋จธ์ง ๋ณ์๋ค์ ์ ๊ฑฐํ๋, ์๋ถ๊ตฌ์กฐํ์์
๊ณ ์ณ๊ฐ ์ถ์๊ฐ ๊ฐ๋ฅํ์ฌ ์ ์งํ์๋ค. Hur et al.(2010)์ ์์ ๋ฑ๊ธ ๊ฒฐ์ ์์ธ ์ค ๊ต๋ ํ์์ ์ฌ์ฉ ์ฌ๋ฃ์ ๋ฐ๋ผ ๊ตฌ๋ถํ์ฌ ํ๊ฐํ์๋๋ฐ, ์ด๋ฅผ ์ฐธ๊ณ ํ์ฌ ์๋ถ๊ตฌ์กฐํ์์ ๊ณ ์ณ๊ฐ์ RC(Reinforced Concrete)๊ต,
PSC(PreStressed Concrete)๊ต, ๊ฐ๊ต, ๊ธฐํ๋ก ์ถ์ํ์๋ค.
์ถ๊ฐ์ ์ผ๋ก ๊ธฐ์กด ์๋ฃ์๋ ์กด์ฌํ์ง ์์ง๋ง ๊ต๋ ๋ฑ๊ธ์ ํฐ ์ํฅ์ ๋ฏธ์น ๊ฒ์ผ๋ก ์์๋๋ ๋ฐ์ดํฐ์ธ ๊ต๋๋ณ ํ๊ท ์ผ๊ตํต๋(ADT: Average Daily
Traffic)๊ณผ ๊ต๋ ์์น ์ ๋ณด ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ๋ณ์์ ์ถ๊ฐํ์๋ค. ํผ๋ก๋ก ์ธํ ๊ต๋์ ์์์ ๊ตํตํ์ค ํน์ฑ์ ์ํฅ์ ๋ฐ๊ธฐ ๋๋ฌธ์(Lee et al., 2010) ์ด์ ์ฐ๊ด๋ ๊ต๋๋ณ ํ๊ท ์ผ๊ตํต๋์ ๋๋ก ๊ต๋ ๋ฐ ํฐ๋ ํํฉ์กฐ์(MOLIT, 2021d)๋ฅผ ์ฐธ๊ณ ํ์ฌ ํ๋ณดํ์๋ค. ๊ทธ๋ฆฌ๊ณ , ํ์ฐํ ๋ฐ ์ผํด๋ ์ฝํฌ๋ฆฌํธ์ ๊ฐ์ฌ์ ๋ด๊ตฌ์ฑ ์ ํํ์์ ๊ฐ์ํํ ๊ฐ๋ฅ์ฑ์ด ์๊ธฐ ๋๋ฌธ์ ๊ต๋ ์์น๋ฅผ ๋์ฌ์ง์ ํ์ฐํ
๋ฐ ํด์๊ฐ์ ์ผํด, ๊ทธ๋ฆฌ๊ณ ๊ธฐํ ์ง์ญ์ผ๋ก ๊ตฌ๋ถํ์ฌ ๋ณ์์ ๋ฐ์ํ์๋ค. ํด์๊ฐ์ ์ผํด์ ๊ฒฝ์ฐ ์ฝํฌ๋ฆฌํธํ์ค์๋ฐฉ์ ํด์ค(KCI, 2009)์ ์ฐธ๊ณ ํ์ฌ ์ํด์๊ณผ ๋จํด์์ ํด์์ ์ผ๋ก๋ถํฐ 250 m, ๋ํด์์ ํด์์ ์ผ๋ก๋ถํฐ 1,000 m ๊ฑฐ๋ฆฌ ๋ด์ ์กด์ฌํ๋ ์ง์ญ์ ์ผํด์ ์ํฅ๊ถ์ผ๋ก ํ๋จํ์๋ค.
๋ํ, ํ์ฐํ๋ ํ์ ๊ตฌ์ญ ์ค ์ธ๊ตฌ ๊ท๋ชจ๊ฐ ํฐ ์ ๋๋ ์์น๊ตฌ, ๊ณต์
๋จ์ง์ ์ฐ์
๋จ์ง๋ฅผ ํ์ฐํ์ ์ํฅ๊ถ์ผ๋ก ๊ฐ์ฃผํ์๋ค.
ํํธ, ์ ๊ตญํ์ค๊ต๋๋ฐ์ดํฐ์์ ๋ณด์๋ณด๊ฐ๋ด์ญ ์๋ฃ๋ ๊ฒฐ์ธก๊ฐ์ด ๋ง์ง๋ง, ์์ค๋ฌผํตํฉ์ ๋ณด๊ด๋ฆฌ์์คํ
(FMS, 2021)์ ๋ณด์๋ณด๊ฐ๋ด์ญ์ ๋น๊ต์ ๊ฒฐ์ธก๊ฐ์ด ์ ๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ์ฐธ๊ณ ํ์ฌ ๋ณด์๋ณด๊ฐ๊ณผ ๊ด๋ จ๋ ๋ณ์๋ฅผ ์ถ๊ฐํ์๋ค. ๊ณต์ฉ๊ธฐ๊ฐ ๋์ ์ค์ํ ๋ณด์๋ณด๊ฐ ํ๋์ ์ข
๋ฅ๊ฐ ์จ์ ํ๊ฒ
๊ธฐ๋ก๋์ง ์์ ๊ต๋๋ค์ด ๋ง์ ๋ณด์๋ณด๊ฐ ํ์์ 2๋
์ด๋ด ๋ณด์๋ณด๊ฐ ๋ด์ญ ์ฌ๋ถ๋ฅผ ํ์ธํ์ฌ ๋ณ์๋ก ์ถ๊ฐํ์๋ค. ์ด๋ ๋น๋ก ๊ธด๊ธํ์ง๋ ์์ง๋ง ๊ฒฐํจ์ ์กด์ฌ๋ก
์ธํด ๋ณด์๋ ๋ณด๊ฐ์ ์ค์ํด์ผ ํ๋ B์ C๋ฑ๊ธ ๊ต๋์ ์ ๋ฐ์์ ์ ๊ฒ ์ฃผ๊ธฐ๊ฐ 2๋
์ด๊ธฐ ๋๋ฌธ์ ์ด ๊ธฐ๊ฐ์ ๋ณด์๋ณด๊ฐ ์ฌ๋ถ์ ๊ธฐ์ค์ผ๋ก ์ผ์๋ค.
๋ณ์๋ค์ ์๊ด๊ด๊ณ๊ฐ ๊ฑฐ์ ์๋ ๋
๋ฆฝ๋ณ์๋ฅผ ์ฌ์ฉํด์ผ ํ๋ฉฐ, ๋ณ์๋ค ๊ฐ ์๊ด์ฑ์ด ๋์ ๋ค์ค๊ณต์ ์ฑ์ด ๋ฐ์ํ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ด ๋ฐ๋์งํ์ง ์๋ค(Dormann et al., 2013). ๋ฐ๋ผ์ ์ (3)๊ณผ ๊ฐ์ ํผ์ด์จ ์๊ด๊ณ์(Pearson correlation coefficient)๋ฅผ ๊ตฌํ์ฌ ์ฐ์ํ ๋ณ์๋ค์ ์๊ด๊ด๊ณ๋ฅผ ์ฐ์ถํ๊ณ , ๋์ ์๊ด์ฑ์ ๊ฐ์ง๋
๋ณ์๋ค์ ์ ๊ฑฐํ์๋ค.
์ฌ๊ธฐ์, $\rho_{X,\: Y}$๋ ๋ณ์ ๊ฐ ํผ์ด์จ ์๊ด๊ณ์, $X$, $Y$๋ ๊ฐ ๋ณ์์ ๊ฐ, $Cov(X,\: Y)$๋ ๊ฐ ๋ณ์ ๊ฐ ๊ณต๋ถ์ฐ,
$\sigma_{X}$, $\sigma_{Y}$๋ ๊ฐ ๋ณ์์ ํ์คํธ์ฐจ, $\mu_{X}$, $\mu_{Y}$๋ ๊ฐ ๋ณ์์ ํ๊ท , $N$์ ๋ณ์์ ๊ฐ์์ด๋ค.
๋ณ์ ๊ฐ ํผ์ด์จ ์๊ด๊ณ์๋ฅผ ์๊ฐํํ๋ฉด Fig. 5์ ๊ฐ๋ค. ํต์์ ์ผ๋ก ํผ์ด์จ ์๊ด๊ณ์์ ์ ๋๊ฐ์ด 0.3 ์ด์์ด๋ฉด ๋ณ์ ๊ฐ์ ๋๋ ทํ ์๊ด๊ด๊ณ๊ฐ ์๋ค๊ณ ๊ฐ์ฃผํ๋ค(Ratner, 2009). ๋ฐ๋ผ์ ํผ์ด์จ ์๊ด๊ณ์์ ์ ๋๊ฐ์ด 0.3 ์ด์์ธ ๋ณ์๋ค์ ๊ต๋ํญ, ๊ต๋์ฐ์ฅ๊ณผ ๊ณต์ฉ๊ธฐ๊ฐ์ผ๋ก ๋ํ๋๋ค๊ณ ๋ณด๊ณ , ์ด 3๊ฐ์ง ๋ณ์๋ค์ ์ ์ธํ๊ณ ๋ ์ ๊ฑฐํ์๋ค.
์ด์๊ณผ ๊ฐ์ ์ ์ฐจ๋ฅผ ๊ฑฐ์ณ ๋ชจ๋ธ ๊ตฌ์ถ์ ์ฌ์ฉํ๋ ๋ณ์๋ ์์ค๋ฌผ์ข
๋ณ๋ฑ๊ธ๊ตฌ๋ถ, ๊ต๋์ฐ์ฅ, ๊ต๋ํญ, ์ํํ์ ๋ถ๋ฆฌ์ฌ๋ถ, ์๋ถ๊ตฌ์กฐํ์, ๊ณต์ฉ๊ธฐ๊ฐ, ๊ต๋๋ณ ํ๊ท ์ผ๊ตํต๋,
๊ต๋์์น์ 2๋
์ด๋ด ๋ณด์๋ณด๊ฐ ๋ด์ญ ์ฌ๋ถ์ ๊ฐ์ด ์ด 9๊ฐ๊ฐ ๋์ถ๋์๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ ๊ตฌ์ถ ์ ๋ชจ๋ธ์์ ์์ธกํ๊ณ ์ ํ๋ ๋ชฉํ์ธ ์์ ๋ฑ๊ธ์ ํฌํจํ๋ฉด
์ด 10๊ฐ์ ๋ฐ์ดํฐ ์ข
๋ฅ๋ฅผ ์ฌ์ฉํ์๋ค.
Fig. 5. Pearson Correlation Coefficient of Features
2.2.2 ๋ฐ์ดํฐ ์ํ๋ง
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๊ฐ๋ฐ์ ์ํด์๋ ๋ฐ์ดํฐ๋ฅผ ํ๋ จ ๋ฐ์ดํฐ์ ํ
์คํธ ๋ฐ์ดํฐ(Test data)๋ก ๋๋ ํ ์๊ณ ๋ฆฌ์ฆ์ด ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ณ ,
ํ
์คํธ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ์ ์ฐจ๋ฅผ ๋ฐ๋ฅธ๋ค. ์ด๋, ํ๋ จ ๋ฐ์ดํฐ์ ํ
์คํธ ๋ฐ์ดํฐ๋ Fig. 2์ ๊ฐ์ด 7:3 ๋น์จ ์ ๋๋ก ๋ถํ ํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด๋ฉฐ, ์ด ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ๋น์จ์ ์ทจํ์๋ค.
์ผ๋ฐ๊ตญ๋์ ๊ต๋ 8,850๊ฐ์ ์์ ๋ฑ๊ธ ๋ถํฌ๋ Table 2์ ๊ฐ๋ค. ์ผ๋ฐ๊ตญ๋ ๊ต๋์ ๊ฒฝ์ฐ E๋ฑ๊ธ ๊ต๋์ ์์ผ๋ฉฐ, C์ D๋ฑ๊ธ ๊ต๋์ A์ B๋ฑ๊ธ ๊ต๋์ ๋นํด ๊ทธ ์๊ฐ ํ์ ํ ์ ์๋ฐ, ํนํ D๋ฑ๊ธ ๊ต๋์ ์๊ฐ
ํ์ ํ ์ ๋ค. ํด๋น ๋ฐ์ดํฐ๋ ๊ฐ ์ง๋จ์ ๋ถํฌ๊ฐ ๊ท ๋ฑํ์ง ์์ ๋ถ๊ท ํ ๋ฐ์ดํฐ์ด๋ฏ๋ก ์ด๋ฅผ ๊ทธ๋๋ก ํ์ตํ๋ค๋ฉด A์ B๋ฑ๊ธ๋ง ์ฃผ๋ก ํ์ตํ๊ณ , C์ D๋ฑ๊ธ์
๊ฑฐ์ ํ์ตํ์ง ์๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์ฌ ๋ชจ๋ธ์ ์์ธก ์ฑ๋ฅ์ด ์ ํ๋ ์ ์๋ค. ํนํ C์ D๋ฑ๊ธ์ ์ ์ง๊ด๋ฆฌ ์ธก๋ฉด์์ ์ฃผ์๋ฅผ ์ํ๋ ๊ต๋์ด๋ฏ๋ก C์ D๋ฑ๊ธ
๊ต๋์ ์ฌ๋ฐ๋ก ์์ธกํ ์ ์๋ ๋ชจ๋ธ์ ์์ฑํ๋๋ก ๋ฐ์ดํฐ๋ฅผ ํ์ต์ํค๋ ๊ฒ์ด ๋ฐ๋์งํ๋ค. ๋ฐ๋ผ์ ์ด๋ฌํ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด C์ D๋ฑ๊ธ์ ํ
์ง๋จ์ผ๋ก ๋ฌถ์ ํ ์ํ๋ง ๊ธฐ๋ฒ์ ํตํด ๊ฐ ์ง๋จ(A, B, C+D)์ ๋ถํฌ๋ฅผ ๊ท ๋ฑํ๊ฒ ๋ง๋ค์ด ๋ฑ๊ธ๋ณ ์์ธก ์ฑ๋ฅ์ ๋์ด๊ณ ์ ํ์๋ค.
์ด๋ ์ํ๋ง ๊ธฐ๋ฒ์๋ Fig. 6๊ณผ ๊ฐ์ด ์ธ๋ ์ํ๋ง(Under- sampling), ์ค๋ฒ ์ํ๋ง(Over-sampling) ๋ฐ ๋ณตํฉ ์ํ๋ง(Combined sampling)์ด ์๋ค.
์ธ๋ ์ํ๋ง์ด๋ ๋ค์ ์ง๋จ์ ๋ฐ์ดํฐ๋ฅผ ์์๋ก ์ ํํ์ฌ ์์ ์ง๋จ์ ์์ ๋ง๋๋ก ๋ฐ์ดํฐ ๋น์ค์ ์กฐ์ ํ์ฌ ๋ชจ๋ธ๋ง์ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ฉฐ, ์ ์๋ฏธํ ๋ฐ์ดํฐ๋ก
์ถ์ฝ์ํฌ ์ ์์ง๋ง ์ค์ ์ ๋ณด๊ฐ ์ ์ค๋ ์ฐ๋ ค๊ฐ ์๋ค. ์ค๋ฒ ์ํ๋ง์ ์ธ๋ ์ํ๋ง๊ณผ๋ ๋ฐ๋๋ก ์์ ์ง๋จ์ ๋ฐ์ดํฐ๋ฅผ ๋ค์ ์ง๋จ์ ๋ง์ถ์ด ์ฆํญ์ํค๋ ๋ฐฉ๋ฒ์ผ๋ก,
์ ๋ณด์ ์ ์ค์ ๋ฐฉ์งํ ์ ์์ง๋ง ๋ฐ๋ณต๋๊ฑฐ๋ ์ ์ฌํ ๋ฐ์ดํฐ์ ์ฆ๊ฐ๋ก ๊ณผ์ ํฉ ํ์์ด ์ผ์ด๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ ํ์ํฌ ์ฐ๋ ค๊ฐ ์๋ค. ํํธ, ์ธ๋ ์ํ๋ง๊ณผ
์ค๋ฒ ์ํ๋ง์ ๋จ์ ์ ๋ณด์ํ๊ณ ์ ๋ ๊ฐ์ง ์ํ๋ง ๊ธฐ๋ฒ์ ๊ฒฐํฉํ ๋ณตํฉ ์ํ๋ง ๊ธฐ๋ฒ๋ ์๋ค(Lee et al., 2019b). ๋ฐ๋ผ์ ์ด ์ฐ๊ตฌ์์๋ ๋ชจ๋ธ๋ง์ ์ธ๋ ์ํ๋ง, ์ค๋ฒ ์ํ๋ง ๋ฐ ๋ณตํฉ ์ํ๋ง ๊ธฐ๋ฒ์ ๋ชจ๋ ์ ์ฉํ์ฌ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํด ๋ณด์๋ค. ์ธ๋ ๋ฐ ์ค๋ฒ ์ํ๋ง
๊ธฐ๋ฒ์๋ ๋ช ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋๋ฐ, ๊ทธ ์ค ๋ค์ ์ง๋จ ๋ฐ์ดํฐ๋ฅผ ์์ ์ง๋จ ๋ฐ์ดํฐ์ ์๋งํผ ๋ฌด์์๋ก ๊ฐ์์ํค๋ ๋๋ค ์ธ๋ ์ํ๋ง์, ์์ ์ง๋จ ๋ฐ์ดํฐ๋ฅผ
๋ค์ ์ง๋จ ๋ฐ์ดํฐ์ ์๋งํผ ๋ฌด์์๋ก ์ฆ๊ฐ์ํค๋ ๋๋ค ์ค๋ฒ ์ํ๋ง์ ์ฌ์ฉํ์๋ค. ๋ณตํฉ ์ํ๋ง์ ๊ฒฝ์ฐ ์ธ๋ ์ํ๋ง์ TomekLinks ์ํ๋ง๊ณผ ์ค๋ฒ
์ํ๋ง์ SMOTE ์ํ๋ง์ ๊ฒฐํฉํ SMOTETomek ์ํ๋ง์ ์ฌ์ฉํ์๋ค. ์ด๋ ์์ ์ง๋จ๊ณผ ๋ค์ ์ง๋จ์ ์ํ ๋ฐ์ดํฐ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๊ฐ ๊ทผ์ ํ ๊ฒ์
ํ ์ง๋จ์ผ๋ก ๋ณด๊ณ ์ด๋ฅผ ๋
ธ์ด์ฆ๋ก ๊ฐ์ฃผํ์ฌ ์ ๊ฑฐํ ํ, ์์ ์ง๋จ์ ํด๋นํ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์์ผ๋ก ํฉ์ฑํ๊ณ ์ฆ๊ฐ์์ผ ๋ฐ์ดํฐ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ธฐ๋ฒ์ด๋ค.
Fig. 6. Data Sampling Technique to Improve Imbalanced Data: (a) Random Under-sampling, (b) Random Over-sampling, (c) SMOTETomek Sampling
Table 2. Distribution of Safety Grade of Bridges Located in National Roads
Safety grade
|
Number of bridges
|
Percentage of bridges(%)
|
A
|
2,252
|
25.4
|
B
|
5,775
|
65.3
|
C
|
696
|
7.9
|
D
|
8
|
0.1
|
E
|
0
|
0
|
None
(No inspection or examination)
|
119
|
1.3
|
Sum
|
8,850
|
100
|
2.3 ์ต์ ์ ๋งค๊ฐ๋ณ์ ์ ์ฉ ๋ชจ๋ธ
์์ฌ๊ฒฐ์ ๋๋ฌด ๋ฐ ๋๋คํฌ๋ ์คํธ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ๋ฉด ๋ฐ์ดํฐ์ ์ ํฉํ ๋งค๊ฐ๋ณ์๊ฐ ์ง์ ๋์ด ์์ง ์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ฎ์์ง๋ค. ์ด๋ ๋งค๊ฐ๋ณ์(Parameter)๋
๋ชจ๋ธ์ ์ค์ ๊ฐ์ ์๋ฏธํ๋ฉฐ ์ฌ์ฉ์๊ฐ ์ง์ ์กฐ์ ๊ฐ๋ฅํ๋ฐ, ์์ธก ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด์๋ ์ต์ ์ ๋งค๊ฐ๋ณ์๋ฅผ ์ ์ ํด์ผ ํ๋ค(Provost and Fawcett, 2013; Truicฤ and Leordeanu, 2017). ์๋ฐํ ๋งํด ์ด์ฒ๋ผ ์ฌ์ฉ์๊ฐ ์ง์ ๊ฐ์ ์ค์ ํด ์ค ์ ์๋ ๋งค๊ฐ๋ณ์๋ ์ด๋งค๊ฐ๋ณ์(Hyper parameter, ํ์ดํผํ๋ผ๋ฏธํฐ)๋ก์ ์ผ๋ฐ์ ์ธ ๋งค๊ฐ๋ณ์์๋
๊ตฌ๋ณ๋์ด์ผ ํ์ง๋ง, ์ฌ๊ธฐ์์๋ ๊ธฐ์กด ์ฐ๊ตฌ์์ ํต์์ ์ผ๋ก ๊ทธ๋ฌํ๋ฏ ๋งค๊ฐ๋ณ์๋ก ์ง์นญํ์๋ค.
์ด ์ฐ๊ตฌ์์๋ Scikit-learn์ GridSearchCV๋ฅผ ์ด์ฉํ์ฌ ์ต์ ์ ๋งค๊ฐ๋ณ์๋ฅผ ์ ์ ํ์๋ค. GridSearchCV๋ ๋ถ๋ฅ์ ์ฌ์ฉํ๋ ๋งค๊ฐ๋ณ์๋ค์
์์ฐจ์ ์ธ ์
๋ ฅ์ ํตํด ์ง์ ํ ๋งค๊ฐ๋ณ์ ๋ฒ์์์ ๋ชจ๋ ๊ฒฝ์ฐ์ ์กฐํฉ์ ๋ง๋ค์ด ํ๊ฐํ๋ค. ๋ํ, ํ์ต๊ณผ ๊ฒ์ฆ์ ๋ฐ๋ณตํ์ฌ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ณ ์ผ๋ฐํ ์ฑ๋ฅ์
๋์ด๋ ๊ต์ฐจ๊ฒ์ฆ์ ๋์์ ์งํํ๊ธฐ ๋๋ฌธ์ ์ง์ ํ ๋ฒ์์์ ๊ฐ์ฅ ์ฐ์ํ ์์ธก ์ฑ๋ฅ์ ๊ฐ์ง๋ ๋งค๊ฐ๋ณ์๊ฐ์ ํ์ธํ ์ ์๋ค(Scikit-learn developers, 2007- 2022). ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋๋คํฌ๋ ์คํธ์์ ์กฐ์ ํ ๋งค๊ฐ๋ณ์๋ค์ Table 3์ ๋ํ๋ด์์ผ๋ฉฐ, ์ฌ๊ธฐ์ max_depth, min_samples_split๊ณผ min_samples_leaf๋ ์์ฌ๊ฒฐ์ ๋๋ฌด๊ฐ ๊น๊ฒ ์์ฑ๋๋ ๊ฒ์ ๋ฐฉ์งํจ์ผ๋ก์จ
๊ณผ์ ํฉ์ ์ํฅ์ ๋ฎ์ถ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๋ณดํ๋ ๋งค๊ฐ๋ณ์์ด๋ฏ๋ก ํ์์ ์ผ๋ก ์กฐ์ ํด์ผ ํ๋ค. ๊ฐ ์ํ๋ง๋ณ๋ก ์ด ์ฐ๊ตฌ์์ ๋์ถ๋ ์์ฌ๊ฒฐ์ ๋๋ฌด ๋ฐ ๋๋คํฌ๋ ์คํธ
์๊ณ ๋ฆฌ์ฆ์ ์ต์ ๋งค๊ฐ๋ณ์๋ ๊ฐ๊ฐ Table 4 ๋ฐ 5์ ๊ฐ๋ค.
Table 3. Hyper Parameters in Decision Tree and Random Forest
Hyper parameter
|
Characteristics
|
criterion
|
The function to measure the quality of a split (entropy, gini)
|
max_depth
|
The maximum depth of the tree
|
min_samples _split
|
The minimum number of samples required to split an intermediate node
|
min_samples _leaf
|
The minimum number of samples required to be at a leaf node
|
max_ features
|
The number of features to consider when looking for the best split
(auto: , log: )
|
class_ weight
|
Whether to apply the weight of each class
(apply: balanced, non-apply: None)
|
splitter
|
The strategy used to choose the split at each node
(the best method of splitting node for all features: best, the best method of splitting
node after randomly extracting the features: random)
*Only used for Decision Tree
|
bootstrap
|
Whether bootstrap samples are used when building trees
*Only used for Random Forest
|
Table 4. Hyper Parameters in Decision Tree Model
Hyper parameter
|
Sampling
|
Random under-sampling
|
Random over-sampling
|
SMOTETomek sampling
|
criterion
[entropy, gini]
|
gini
|
entropy
|
entropy
|
max_depth
[1โผ10]
|
5
|
None
|
None
|
min_samples _split [1โผ15]
|
12
|
2
|
2
|
min_samples _leaf [1โผ15]
|
2
|
1
|
1
|
max_features
[auto, log]
|
auto
|
auto
|
auto
|
class_weight
[balanced, None]
|
balanced
|
None
|
None
|
splitter
[best, random]
|
best
|
best
|
best
|
Table 5. Hyper Parameters in Random Forest Model
Hyper parameter
|
Sampling
|
Random under-sampling
|
Random over-sampling
|
SMOTETomek sampling
|
criterion
[entropy, gini]
|
gini
|
gini
|
gini
|
max_depth
[1โผ10]
|
9
|
9
|
9
|
min_samples _split [1โผ15]
|
4
|
7
|
2
|
min_samples _leaf [1โผ15]
|
1
|
1
|
1
|
max_features
[auto, log]
|
auto
|
auto
|
auto
|
class_weight
[balanced, None]
|
balanced
|
balanced
|
balanced
|
bootstrap
[True, False]
|
False
|
False
|
False
|
3. ๊ต๋์ ์์ ๋ฑ๊ธ ์์ธก ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ
์ด ์ฐ๊ตฌ์์ ์์ธกํ๊ณ ์ ํ๋ ์์ ๋ฑ๊ธ์ ๋ฒ์ฃผ๋ A๋ฑ๊ธ, B๋ฑ๊ธ ๋ฐ C, D๋ฑ๊ธ์ ์ด 3๊ฐ์ง๋ก ๊ตฌ๋ถ๋๋ฏ๋ก ๋ค์ค ๋ถ๋ฅ ๋ชจ๋ธ์ ํด๋น๋๋ค. ํด๋น ๋ชจ๋ธ์์
ํ
์คํธ ๋ฐ์ดํฐ๋ ํ๋ จ ๋ฐ์ดํฐ์๋ ๋ฌ๋ฆฌ ์ํ๋งํ์ง ์๊ธฐ ๋๋ฌธ์ ๋ฒ์ฃผ๋ณ ๋ถํฌ๊ฐ ๋ถ๊ท ํํ๋ค. ๋ฐ๋ผ์ ์ผ๋ฐ์ ์ธ ์ ํ๋(Accuracy)๋ ๊ฐ ๋ฒ์ฃผ์ ๋ถํฌ๊ฐ
๊ณ ๋ ค๋์ง ์๊ณ ํ๊ท ํ๋์ด ๊ณ์ฐ๋๋ฏ๋ก ์์ ๋ฒ์ฃผ์ ๋ค์ ๋ฒ์ฃผ๊ฐ ํผ์ฌํ๋ ๋ถ๋ฅ์์๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ ์ ํ ํ๊ฐ ์งํ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, ์ ํ๋ ๋์ ๋ค๋ฅธ
ํ๊ฐ ์งํ๊ฐ ์ฌ์ฉ๋์ด์ผ ํ๋ค(He and Garcia, 2009). ์ด ์ฐ๊ตฌ์์๋ ๋ค์ ๋ฒ์ฃผ์ธ A์ B๋ฑ๊ธ๋ฟ๋ง ์๋๋ผ ์์ ๋ฒ์ฃผ์ธ C, D๋ฑ๊ธ์ ์์ธก๋ ฅ๋ ์ฐ์ํ ๋ชจ๋ธ์ ์ ์ ํ๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ง ํ๊ฐ ์งํ๋ก์ ํผ๋ํ๋ ฌ(Confusion
matrix), ๊ท ํ ์ ํ๋(Balanced accuracy), ์ฌํ์จ(Recall), ROC ๊ณก์ (Receiver Operating Characteristic
curve) ๋ฐ AUC(Area Under the Curve)๋ฅผ ์ฌ์ฉํ์ฌ ์์ธก ์ฑ๋ฅ์ ํ๊ฐํ์๋ค.
3.1 ํผ๋ํ๋ ฌ
ํผ๋ํ๋ ฌ์ ์ค์ ๊ฐ๊ณผ ์์ธก๊ฐ์ ์ผ์น ์ฌ๋ถ๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ ๊ต๋ ๋ฑ๊ธ ๋ถ๋ฅ ๋ชจ๋ธ์ ์์ธก ์ฑ๋ฅ์ ํ๊ฐํ๋ ๊ธฐ๋ณธ ์งํ๊ฐ ๋๋ค. Fig. 7์์ ๋์์ ์ค์ ๊ฐ๊ณผ ์์ธก๊ฐ์ด ๋ถ๋ฅํ๊ณ ์ ํ๋ ํน์ ๋ฒ์ฃผ๋ก ์ผ์นํ๋ฉด TP(True Positive)์ด๊ณ , ์ค์ ๊ฐ๊ณผ ์์ธก๊ฐ์ด ๋ชจ๋ ํด๋น ๋ฒ์ฃผ๊ฐ ์๋๋ฉด
TN(True Negative)์ด๋ค. ๋ํ ๋ถ๋ฅํ๊ณ ์ ํ๋ ๋ฒ์ฃผ์์ ์ค์ ๊ฐ์ ํน์ ๋ฒ์ฃผ์ด๋ ์์ธก๊ฐ์ ๊ทธ ์ธ ๋ฒ์ฃผ์ด๋ฉด FN(False Negative),
์ค์ ๊ฐ์ ํน์ ๋ฒ์ฃผ๊ฐ ์๋์ง๋ง ์์ธก๊ฐ์ ๊ทธ๋ฌํ ํน์ ๋ฒ์ฃผ์ด๋ฉด FP(False Positive)๋ฅผ ์๋ฏธํ๋ค. ์ฆ, TP์ TN์ ์์ธก์ด ์ค์ ์ ์ผ์นํ๋
์ ๋ต์ด๊ณ , FP์ FN์ ์์ธก์ด ์ค์ ์ ๋ค๋ฅธ ์ค๋ต์ด๋ค. ํนํ, ์ค์ ๋ก C, D๋ฑ๊ธ์ธ ๊ต๋์ A์ B๋ฑ๊ธ์ผ๋ก ์ํฅํ์ฌ ์์ธกํ๋ ๊ฒฝ์ฐ์ธ FN์ ๊ต๋์
์ ์ง๊ด๋ฆฌ๊ฐ ๋น๊ต์ ์๊ธํ C, D๋ฑ๊ธ์ ์ถ์ถํ์ง ๋ชปํ์ฌ ๊ตฌ์กฐ ์์ ์ฑ์ ํฐ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ ์ฐ๋ ค๊ฐ ์์ผ๋ฏ๋ก ๊ทธ ๊ฐ์๋ฅผ ์ต์ํ์ํค๋ ๊ฒ์ด ๋ฐ๋์งํ๋ค.
์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋๋คํฌ๋ ์คํธ์ ํผ๋ํ๋ ฌ์ ์ดํด๋ณด๋ฉด Fig. 8๊ณผ ๊ฐ์ด ์ ๋ต์ธ TP์ TN์ ๊ฐ์๋ ๋ชจ๋ ๋ฑ๊ธ์ ์์ธก์ ์์ด ๋๋คํฌ๋ ์คํธ๊ฐ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ณด๋ค ๋ ๋ง์ ๊ฒ์ ํ์ธํ์๋ค. ๋ํ, ์ํ๋ง ๊ธฐ๋ฒ ์ค ๋๋ค
์ธ๋ ์ํ๋ง์ ์ ์ฉํ ๋ชจ๋ธ์ด ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋๋คํฌ๋ ์คํธ ๋ชจ๋์์ ์ค์ C, D๋ฑ๊ธ์ธ ๊ต๋์ A๋ฑ๊ธ ๋๋ B๋ฑ๊ธ์ผ๋ก ์ํฅํ์ฌ ์์ธกํ๋ ๊ฒฝ์ฐ์ธ FN์
๊ฐ์๊ฐ ๊ฐ์ฅ ์ ์๋ค. ์ ์ง๊ด๋ฆฌ ์ธก๋ฉด์์๋ C, D๋ฑ๊ธ ๊ต๋์ ์์ธก ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ค์ํ๋ฏ๋ก ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋๋คํฌ๋ ์คํธ ๋ชจ๋ ๋๋ค ์ธ๋ ์ํ๋ง ๊ธฐ๋ฒ์ด
ํจ๊ณผ์ ์ด๋ผ๊ณ ํ๋จ๋๋ค. ์ถ๊ฐ์ ์ผ๋ก C, D๋ฑ๊ธ ๊ต๋์ ์์ธก์์ ๋๋ค ์ค๋ฒ ์ํ๋ง๊ณผ SMOTETomek ์ํ๋ง์ ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๊ฒฝ์ฐ TP๋ณด๋ค FN์ด
๋ ๋ง์์ ๋ถ์ ํฉํ์ง๋ง, ๋๋คํฌ๋ ์คํธ์์๋ ๋น๋ก ๋๋ค ์ธ๋ ์ํ๋ง์ ์์ค์๋ ๋ชป ๋ฏธ์ณค์ง๋ง FN๋ณด๋ค TP๊ฐ ๋ ๋ง์ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. ํํธ, A๋ฑ๊ธ์
์์ธก๋ ฅ์ ์ํ๋ง ๊ธฐ๋ฒ์ ๊ด๊ณ์์ด ๋๋คํฌ๋ ์คํธ๊ฐ ๋์ฒด๋ก ์ฐ์ํ๊ณ , B๋ฑ๊ธ์ ์์ธก๋ ฅ์ ๋ถ๋ฅ ๋ชจ๋ธ์ด๋ ์ํ๋ง ๊ธฐ๋ฒ์ ๋ฐ๋ผ ์ฐจ์ด๊ฐ ์์ด ์ผ๋ฅ ์ ์ผ๋ก ์ธ๊ธํ๊ธฐ
์ด๋ ค์ ๋ค.
์ด์ฒ๋ผ ํผ๋ํ๋ ฌ์ ํตํ์ฌ ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋๋คํฌ๋ ์คํธ ์ค ์ฑ๋ฅ์ด ๋ฐ์ด๋ ์๊ณ ๋ฆฌ์ฆ์ ํ๋ณํ ์ ์์ผ๋, ์ํ๋ง๋ณ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์์น๋ก ํํ๋ ์ ๋์ ์ธ
๊ธฐ์ค์ผ๋ก ๋น๊ตํ๊ธฐ๋ ์ด๋ ต๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ ์์ธก ์ฑ๋ฅ์ ์ข ๋ ๋ช
ํํ๊ฒ ์ ๋์ ์ผ๋ก ํ๋จํ๊ธฐ ์ํด 3.2์ ์์๋ ์์น๋ ๊ทธ๋ํ๋ก ํํ๋ ์ ์๋ ์ถ๊ฐ์ ์ธ
์งํ๋ค์ ์ด์ฉํ์ฌ ๋ถ์ํ์๋ค.
Fig. 8. Results of Confusion Matrix: (a) Decision Tree, (b) Random Forest
3.2 ์ ํ๋, C, D๋ฑ๊ธ ์ฌํ์จ, ROC ๊ณก์ ๋ฐ AUC
์ผ๋ฐ์ ์ธ ์ ํ๋๋ ์ ์ฒด์์ ์ ๋ต์ ๋น์จ์ ์ (4)๋ก ๊ตฌํ๋ฉฐ, ํ
์คํธ ๋ฐ์ดํฐ์ ๋ฒ์ฃผ๋ณ ๋ถํฌ๊ฐ ๊ท ๋ฑํ์ง ์์ผ๋ฉด ์์ธก๋ ฅ์ ๊ณผ๋ ๋๋ ๊ณผ์ํ๊ฐํ ์ฐ๋ ค๊ฐ ์๋ค. ๋ฐ๋ผ์ ์ด๋ฌํ ์ ํ๋๋ ์ด ์ฐ๊ตฌ์์์ ๊ฐ์ด
ํ
์คํธ ๋ฐ์ดํฐ๊ฐ ๋ถ๊ท ํํ ๊ฒฝ์ฐ์๋ ํ๊ฐ ์งํ๋ก์ ์ ์ ์น ์๋ค. ๋ถ๊ท ํํ ํ
์คํธ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ ์ (5)์ ๊ฐ์ด ์ฌํ์จ๊ณผ ํน์ด๋์ ์ฐ์ ํ๊ท ์ผ๋ก ๊ณ์ฐ๋๋ ๊ท ํ ์ ํ๋๋ฅผ ํ๊ฐ ์งํ๋ก ์ฌ์ฉํ๋ ๊ฒ์ด ๋ฐ๋์งํ๋ค. ์ด๋ ๊ฐ ๋ฒ์ฃผ์ ๊ฐ์ ์ฐจ์ด์ ์ํฅ์ ์ค์์ผ๋ก์จ
๊ฐ์๊ฐ ์์ ๋ฒ์ฃผ์ ์์ธก ์ฑ๋ฅ์ด ์๊ณก๋์ง ์๋๋ก ํ๋ ์ฅ์ ์ด ์๋ค.
์ ๋ฐ๋(Precision)๋ ์ (6)๊ณผ ๊ฐ์ด ํน์ ๋ฒ์ฃผ๋ก ์์ธกํ ๊ฒ ์ค์์ ์ค์ ๋ก ํน์ ๋ฒ์ฃผ์ ์กด์ฌํ๋ ๋น์จ์ ๋ํ๋ธ ๊ฒ์ด๋ฉฐ, ์ (7)๊ณผ ๊ฐ์ ์ฌํ์จ์ ์ค์ ํน์ ๋ฒ์ฃผ์ ์ํ๋ ๊ฒ ์ค ์์ธก์ด ๋ง๋ ๋น์จ์ ์๋ฏธํ๋ค(He and Garcia, 2009). ํํธ F1-score๋ ์ (8)๊ณผ ๊ฐ์ด ์ ๋ฐ๋์ ์ฌํ์จ์ ์กฐํํ๊ท ์ผ๋ก์ ๋ค์ค ๋ถ๋ฅ ๋ชจ๋ธ์ ๋ํ์ ์ธ ํ๊ฐ ์งํ ์ค ํ๋์ด๋ค(Grandini et al., 2020). ๋ณดํต ์ฌํ์จ๊ณผ ์ ๋ฐ๋๋ ์๋์ ์ธ ๊ด๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์ด ๋ชจ๋ ๋ฒ์ฃผ์ ์์ธก ์ฑ๋ฅ์ด ๋ฐ์ด๋์ง ์์ ์ด์ ์ฌํ์จ์ด ๊ฐ์ํ๋ฉด ์ ๋ฐ๋๊ฐ ์์นํ๊ณ , ์ ๋ฐ๋๊ฐ
๊ฐ์ํ๋ฉด ์ฌํ์จ์ด ์์นํ๋ ๊ฒฝํฅ์ด ์๋ค. F1-score๋ ์กฐํํ๊ท ์ ํน์ฑ์ ์ฌํ์จ๊ณผ ์ ๋ฐ๋ ์ค ํ๋๊ฐ ์ ํ๋๋ฉด ๋ฎ์ ์์น๋ฅผ ์ฐ์ถํ๊ฒ ๋๋ค. ๋ฐ๋ผ์
๋ชจ๋ธ์ ๋ชฉ์ ์ ๋ฐ๋ผ ์ ๋ฐ๋, ์ฌํ์จ๊ณผ F1-score ์ค ๋ ์ค์์๋๋ ํ๊ฐ ์งํ๋ฅผ ์ ์ ํด์ผ ํ๋ค. ์์ ๋ฑ๊ธ ์์ธก ์ C, D๋ฑ๊ธ ๊ต๋์ด ์ ์ง๊ด๋ฆฌ์
์ค์ ์ด ๋๋ฏ๋ก ์ด๋ฅผ ์ฌ๋ฐ๋ก ์์ธกํ๋ ๊ฒ์ด ๋ฌด์๋ณด๋ค ์ค์ํ๋ค. ๋ฐ๋ผ์ ์ ๋ฐ๋, ์ฌํ์จ, F1-score ์ค C, D๋ฑ๊ธ์ ์ฌํ์จ์ ์ฃผ๋ก ๊ณ ๋ คํ์ฌ ์์ธก
์ฑ๋ฅ์ ํ๊ฐํ์๋ค.
ํํธ, ROC ๊ณก์ ์ ๋ถ๋ฅ์์ ๋น์ฉ์ ํด๋น๋๋ FPR(False Positive Rate)๊ณผ ์ด๋์ ํด๋น๋๋ TPR(True Positive Rate)์
๋น์จ์ ์๊ฐ์ ์ผ๋ก ๋ํ๋ด์ด ๋ชจ๋ธ์ ์์ธก ์ฑ๋ฅ์ ์ฝ๊ฒ ํ๋จํ ์ ์๋๋ก ํ ๊ฒ์ด๋ค. FPR์ ์ค์ ํน์ ๋ฒ์ฃผ์ ์กด์ฌํ์ง ์๋ ๊ฐ์ ํน์ ๋ฒ์ฃผ์ ์กด์ฌํ๋ค๊ณ
์์ธกํ๋ ๋น์จ๋ก ๋น์ฉ์ ํด๋นํ๋ฉฐ, TPR์ ์ค์ ํน์ ๋ฒ์ฃผ์ ์กด์ฌํ๋ ๊ฐ์ ์ฌ๋ฐ๋ก ์์ธกํ๋ ๋น์จ๋ก ์ด๋์ ํด๋นํ๋ค. ROC ๊ณก์ ์ (0, 1)์ ๊ฐ๊น์ธ์๋ก
์ด๋์ด ๋ง์ด ๋ฐ์ํด๋ ์์ค ๋ฐ์์ด ์ ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ฏ๋ก ๋ถ๋ฅ๊ฐ ์๋ฒฝ์ ๊ฐ๊น์์ ๋ํ๋ธ๋ค(He and Garcia, 2009). AUC๋ ROC ๊ณก์ ์ ์๋์ชฝ ๋ฉด์ ์ ๋ํ๋ธ ๊ฐ์ผ๋ก ROC ๊ณก์ ์ ์ฑ๋ฅ์ ์์น๋ก ๋น๊ตํ ๋ ์ ์ฉํ๋ค. AUC๋ 1์ ๊ฐ๊น์ธ์๋ก ์ฑ๋ฅ์ด ์ข๋ค๋ ๊ฒ์
์๋ฏธํ๊ณ , ํต์์ ์ผ๋ก 0.8 ์ด์์ด๋ฉด ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๋ถ๋ฅ๊ธฐ, 0.7 ์ด์์ด๋ฉด ์ฑ๋ฅ์ด ์ค์ํ ๋ถ๋ฅ๊ธฐ๋ก ๊ฐ์ฃผํ๋ฉฐ, 0.5 ์ดํ์ด๋ฉด ๋ถ๋ฅ์ ์๋ฏธ๊ฐ ์๋ค๋
๊ฒ์ ์๋ฏธํ๋ค(Hosmer and Lemeshow, 2000). ROC ๊ณก์ ๋ฐ AUC๋ ๋ถ๋ฅ ๋ชจ๋ธ์ ๋ํ์ ์ธ ํ๊ฐ ์งํ์ด๋ฉฐ, ๊ฐ๋ณ ๋ฒ์ฃผ์ ๋ฐ๋ฅธ ๋น์ฉ ๋ฐ ์์ค์ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ๋ฒ์ฃผ์ ์ํฅ์ ์ ๊ฒ ๋ฐ์ผ๋ฏ๋ก
๋ถ๊ท ํ ๋ฐ์ดํฐ์ ๋ถ์์ ์ ํฉํ๋ค๊ณ ํ๋จํ์ฌ ํ๊ฐ ์งํ๋ก ์ฌ์ฉํ์๋ค.
๋ถ์ ๊ฒฐ๊ณผ ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋๋คํฌ๋ ์คํธ ๋ชจ๋ธ์ ๊ท ํ ์ ํ๋, C, D๋ฑ๊ธ ์ฌํ์จ, AUC๋ฅผ Table 6 ๋ฐ 7์ ๋ํ๋ด์๊ณ , ROC ๊ณก์ ์ Fig. 9์ ๊ฐ๋ค. ์ฌ๊ธฐ์ ๊ท ํ ์ ํ๋ ๋ฐ AUC๋ ๋ชจ๋ ๋ฑ๊ธ์ ๋ํ ํ๊ท ๊ฐ์ด๋ค. ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๊ฒฝ์ฐ ๋๋ค ์ธ๋ ์ํ๋ง์ด ๋ชจ๋ ์ธก๋ฉด์์ ๋๋ค ์ค๋ฒ ์ํ๋ง ๋ฐ
SMOTETomek ์ํ๋ง๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํ์๋ค. ํนํ, ๋๋ค ์ธ๋ ์ํ๋ง์ AUC๊ฐ 0.7 ์ด์์ผ๋ก ์ฑ๋ฅ์ด ์ค์ํ์๊ณ , ๋ฌด์๋ณด๋ค C, D๋ฑ๊ธ์ ์ฌํ์จ์ด
78.7%๋ก ๋ค๋ฅธ ๋ ๊ฐ์ง ์ํ๋ง ๊ธฐ๋ฒ๋ณด๋ค ์๋ฑํ ์ฐ์ํ์๋ค. ๋๋คํฌ๋ ์คํธ์ ๊ฒฝ์ฐ ๋ชจ๋ ์ํ๋ง์์ ๊ท ํ ์ ํ๋๊ฐ 64~67% ์์ค์ผ๋ก ์์ฌ๊ฒฐ์ ๋๋ฌด๋ณด๋ค
์ข์ ์ฑ๋ฅ์ ๋ณด์ ํ์์ผ๋ฉฐ, AUC ๋ํ 0.8 ์ด์์ผ๋ก ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๋ถ๋ฅ๊ธฐ๋ก ํ๋จํ ์ ์์๋ค. ๋ค๋ง C, D๋ฑ๊ธ์ ์ฌํ์จ์ ๋๋ค ์ธ๋ ์ํ๋ง์ด
83.4%๋ก ๋ค๋ฅธ ๋ ์ํ๋ง๋ณด๋ค ์ฐ์ํ์๋ค. ์ด๋ ๊ต๋์ ์์ ๋ฑ๊ธ ํ์ ๊ณผ ๊ด๋ จ๋ ๊ธฐ์กด์ ์ด์ง ๋ถ๋ฅ ๋ชจ๋ธ ์ฐ๊ตฌ(Chung et al., 2016)์์ C, D๋ฑ๊ธ์ ์ฌํ์จ์ด 67.3%์๋ ๊ฒ๊ณผ ๋น๊ตํ ๋ ์ฌํ์จ์ 16.1%p ํฅ์์ํจ ๊ฒ์ผ๋ก์, ์ด ์ฐ๊ตฌ์์ ์ ์ฉํ ๋ถ๋ฅ ๊ธฐ๋ฒ์ ์ฐ์์ฑ์ ๋ณด์ฌ์ฃผ๊ณ
์๋ค.
ROC ๊ณก์ ์ ๊ฒฝ์ฐ ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋๋ค ์ธ๋ ์ํ๋ง์์๋ A๋ฑ๊ธ ๋ฐ C, D๋ฑ๊ธ์ ์์ธก ์ฑ๋ฅ์ด B๋ฑ๊ธ๋ณด๋ค ์๋์ ์ผ๋ก ์ฐ์ํ๊ฒ ๋ํ๋ฌ๋ค. ํ์ง๋ง, ๋๋ค
์ค๋ฒ ์ํ๋ง ๋ฐ SMOTETomek ์ํ๋ง์ ๋ฑ๊ธ์ ๊ด๊ณ ์์ด ๊ณก์ ์ด (0, 1)์์ ๋น๊ต์ ๋ฉ๋ฆฌ ๋จ์ด์ง ํ์์ด๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ์ด ๋ฎ์์ผ๋ฉฐ, ์ด๋ฌํ
๊ฒฝํฅ์ Table 6์ ์๋์ ์ผ๋ก ์์ AUC๊ฐ์๋ ๋ฐ์๋์ด ์๋ค. ๋ฐ๋ฉด ๋๋คํฌ๋ ์คํธ์์๋ ๋ชจ๋ ์ํ๋ง ๊ธฐ๋ฒ์์ ROC ๊ณก์ ์ ํํ๊ฐ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ณด๋ค ์ฐ์ํ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ผ๋ฉฐ,
์ด๋ Table 7์ AUC๊ฐ์์๋ ํ์ธํ ์ ์๋ค. ๋ค๋ง B๋ฑ๊ธ์ ์์ธก ์ฑ๋ฅ์ด A๋ฑ๊ธ ๋ฐ C, D๋ฑ๊ธ๋ณด๋ค ๋จ์ด์ง๋ ๊ฒฝํฅ์ ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋๋ค ์ธ๋ ์ํ๋ง๊ณผ ์ ์ฌํ๊ฒ
๋ํ๋ฌ๋ค.
์ด๋ฌํ ๊ฒฐ๊ณผ๋ค์ ๋ฐํ์ผ๋ก ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋๋คํฌ๋ ์คํธ์ ์ฑ๋ฅ์ ์ ๋ฐ์ ์ผ๋ก ๋น๊ตํ์๋ฉด ๊ท ํ ์ ํ๋, C, D๋ฑ๊ธ ์ฌํ์จ, AUC, ROC ๊ณก์ ๋ชจ๋ ๋๋คํฌ๋ ์คํธ๊ฐ
๋ ์ฐ์ํ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. ํนํ, ๋๋คํฌ๋ ์คํธ์ ์ํ๋ง ๊ธฐ๋ฒ ์ค C, D๋ฑ๊ธ์ ์ฌํ์จ์ด ์๋ฑํ ๋ฐ์ด๋ ๋๋ค ์ธ๋ ์ํ๋ง์ด ๋ถ๊ฐ๋์๋ค. ์ด์๊ณผ ๊ฐ์ด
๊ต๋์ ์์ ๋ฑ๊ธ ์์ธก์ ๋ ๊ฐ์ง ๋ถ๋ฅ ๋ชจ๋ธ์ ์ ์ฉํ์ฌ ๋ถ์ํ ๊ฒฐ๊ณผ ๋๋คํฌ๋ ์คํธ ๋ชจ๋ธ์ ๋๋ค ์ธ๋ ์ํ๋ง์ด C, D๋ฑ๊ธ์ ์ถ์ถํ๋ ์์ธก๋ ฅ์ด ์ฐ์ํ์ฌ
๊ถ์ฅ๋ ์ ์๋ค.
Fig. 9. Comparison of ROC Curves: (a) Decision Tree, (b) Random Forest
Table 6. Evaluation of Predictive Performance in Decision Tree
Evaluation index
|
Sampling
|
Random under- sampling
|
Random over- sampling
|
SMOTETomek sampling
|
Balanced accuracy(%)
|
61.1
|
56.4
|
56.8
|
Recall of C, D grade(%)
|
78.7
|
31.3
|
41.2
|
AUC
|
0.763
|
0.675
|
0.676
|
Table 7. Evaluation of Predictive Performance in Random Forest
Evaluation index
|
Sampling
|
Random under- sampling
|
Random over- sampling
|
SMOTETomek sampling
|
Balanced accuracy(%)
|
67.0
|
64.7
|
67.0
|
Recall of C, D grade(%)
|
83.4
|
63.5
|
71.1
|
AUC
|
0.823
|
0.834
|
0.834
|
3.3 ํ์ฉ ๋ฐฉ์
์ด์๊ณผ ๊ฐ์ด ์ผ๋ฐ๊ตญ๋์ ๊ต๋ 8,850๊ฐ์ ๋ํด์๋ Table 4 ๋ฐ 5์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง๊ณ ๋๋คํฌ๋ ์คํธ ๋ชจ๋ธ์ ๋๋ค ์ธ๋ ์ํ๋ง ๊ธฐ๋ฒ์ ์ ์ฉํ๋ ๊ฒ์ด ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. ๋ฐ์ดํฐ์ ๋ถํฌ๋ ์ฑ์ง์ ๋ฐ๋ผ ์ต์ ์
๋ถ๋ฅ ๋ชจ๋ธ์ด๋ ์ํ๋ง ๊ธฐ๋ฒ์ ๋ฌ๋ผ์ง ์ ์์ผ๋, ์ผ๋ฐ๊ตญ๋ ์ธ์ ๊ณ ์๊ตญ๋๋ ์ง๋ฐฉ๋์์ ๊ต๋๋ค๋ ์ ์ฌํ ๋ฐ์ดํฐ ๋ถํฌ ๋ฐ ์ฑ์ง์ ๊ฐ์ง๊ณ ์๋ค๊ณ ๊ฐ์ ํ๋ค๋ฉด
๋์ผํ ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ๋ถ์ ๊ฐ๋ฅํ๋ค.
์ ์๋ ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ์ ๊ฒ์ด ์ค์๋์ง ๋ชปํ๊ฑฐ๋ ์ ๊ฒ ์๊ธฐ๊ฐ ์ด๊ณผ๋ ๊ต๋์ ์ฑ๋ฅ์ ์์ธกํ ๋๋ ๊ฐ์ข
๋ฐ์ดํฐ์ ๋๋ถ์ด ์์ ๋ฑ๊ธ์ ํ์ธํ๊ณ ์ ํ๋ ์ฐ๋๋ฅผ
์
๋ ฅํ๋ฉด ์์๋๋ ๊ต๋ ์์ ๋ฑ๊ธ์ ์ฐ์ถํ๊ฒ ๋๋ค. ํนํ, ์ ์ ๊ธฐ๋ฒ์ ๋
ธํ๋๊ฐ ํฐ C, D๋ฑ๊ธ ๊ต๋์ ์์ธก๋ ฅ์ด ์ฐ์ํ๋ฏ๋ก ๊ต๋์ ์ ์ ๋ณด์๋ณด๊ฐ ์๊ธฐ
์ถ์ ๋ฐ ์ ์ง๊ด๋ฆฌ ์์ฐ ์ฐ์ถ์ ์ ์ฉํ๊ฒ ํ์ฉ๋ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
4. ๊ต๋ ์์ ๋ฑ๊ธ์ ์ํฅ ์์ธ
๊ฒฐ์ ๋๋ฌด ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ถ๋ฅ ๋ชจ๋ธ๋ค์ ์์ฑํ์๊ธฐ ๋๋ฌธ์ ๋ถ์๋๊ฐ ๊ฐ์ํ๋ ์ ๋๋ฅผ ๊ณ์ฐํ์ฌ ๋ชจ๋ธ์ ์์ฑํ๋ ๊ณผ์ ์์ ๋ณ์๋ค์ด ๋ถ๋ฅ ์ฑ๋ฅ์ ์ํฅ์
๋ฏธ์น๋ ์ ๋์ธ ๋ณ์ ์ค์๋(Variable importance)๋ฅผ ํ์ธํ ์ ์๋ค. ๋ํ, ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์๋ ์ฌ์ฉํ๋ ์์ด ๋ณ์ ์ค์๋(Permutation
feature importance)๋ ๊ณ์ฐํ ์ ์๋ค. ์์ด ๋ณ์ ์ค์๋๋ ํ์ต์ด ๋๋ ๋ชจ๋ธ์์ ๋ณ์๋ฅผ ํ๋์ฉ ์ ๊ฑฐํด๊ฐ๋ฉฐ ์์ธก ์ฑ๋ฅ์ ๋ง์ด ์ ํ์ํค๋
๋ณ์๋ฅผ ์ ์ ํจ์ผ๋ก์จ ํ์
ํ ์ ์๋ค(Scikit-learn developers, 2007-2022).
์ด ์ฐ๊ตฌ์์๋ ๋ณ์ ์ค์๋์ ์์ด ๋ณ์ ์ค์๋๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ํฅ์ ๋ฏธ์น๋ ์ฃผ์ ์์ธ์ ๋์ถํ๊ณ ์ค์ ๊ฒฝํฅ๊ณผ ๋น๊ตํ์ฌ ์ฃผ์ ๋ณ์์ ์์ ๋ฑ๊ธ์ ๊ด๋ จ์ฑ์
๋ถ์ํ์๋ค. ์ด ์ฐ๊ตฌ์์ ์ต์ ์ผ๋ก ๋ํ๋ ๋๋ค ์ธ๋ ์ํ๋ง์ ์ ์ฉํ ๋๋คํฌ๋ ์คํธ ๋ชจ๋ธ์์ ๋ณ์ ์ค์๋์ ์์ด ๋ณ์ ์ค์๋๋ Table 8๊ณผ ๊ฐ์ผ๋ฉฐ, ๊ณตํต์ ์ผ๋ก ๋ํ๋ ์ค์ ๋ณ์๋ ๊ณต์ฉ๊ธฐ๊ฐ, ๊ต๋์ฐ์ฅ, ๊ตํต๋, ์์ค๋ฌผ์ข
๋ณ๋ฑ๊ธ๊ตฌ๋ถ์ด๋ค.
์ดํ์์๋ Table 8์ ์ ์๋ ์ค์ ๋ณ์๋ค ์ค ๋ํ์ ์ผ๋ก ๊ณต์ฉ๊ธฐ๊ฐ๊ณผ ๊ตํต๋์ด ๊ต๋ ์์ ๋ฑ๊ธ๊ณผ ๊ด๋ จ์ฑ์ด ํฐ ๊ฒ์ผ๋ก ๋ํ๋ ์ด์ ๋ฅผ ์ค์ ์ํฉ์ ๋น์ถ์ด ๋ถ์ํ์๋ค.
๊ณต์ฉ๊ธฐ๊ฐ์ ๊ต๋์ ๋
ธํํ์ ์ง์ ์ ์ผ๋ก ๊ด๋ จ๋ ์๊ฐ์ ์์ธ์ผ๋ก ๊ต๋์ ์์ ๋ฑ๊ธ์ ํฐ ์ํฅ์ ์ค๋ค. ๊ต๋ ์ค๊ณต ํ ์๊ฐ์ด ๋ง์ด ๊ฒฝ๊ณผ๋ ์๋ก ๊ฒฐํจ์ด ๋ฐ์ํ๊ณ ,
์ง์์ ์ธ ์ฌ์ฉ์ผ๋ก ์ธํ์ฌ ๋ด๊ตฌ์ฑ๊ณผ ์์ ์ฑ์ด ์ ํ๋๊ธฐ ๋๋ฌธ์ ๊ต๋์ ๋
ธํํ๊ฐ ์งํ๋๋ค. Fig. 10์์ C, D๋ฑ๊ธ ๊ต๋์ ๋น์จ์ 1991๋
์ด์ ์ ์ค๊ณต๋ ๊ต๋์์ 25.6%๋ก ๊ฐ์ฅ ๋์์ผ๋ฉฐ, ์ต๊ทผ 10๋
์ฌ์ด์ ์ค๊ณต๋ ๊ต๋์์๋ ๊ทธ ๋น์จ์ด 1.2%๋ก
๊ฐ์ฅ ๋ฎ์๋ค. ๋ํ, ์ต๊ทผ ์ค๊ณต๋์ด ๊ณต์ฉ๊ธฐ๊ฐ์ด ์งง์ ๊ต๋์ผ์๋ก ๋
ธํํ๊ฐ ๋ง์ด ์งํ๋์ง ์์ ๊ฒฐํจ์ด ์ ์ด์ A๋ฑ๊ธ ๊ต๋์ ๋น์จ์ด ์ฆ๊ฐํ์๋ค. ์ด์ฒ๋ผ
A์ C, D๋ฑ๊ธ์ ๊ต๋์ ๊ณต์ฉ๊ธฐ๊ฐ์ ๋ฐ๋ฅธ ๊ฒฝํฅ์ด ๋๋ ทํ์๋ค. ๋ฐ๋ฉด B๋ฑ๊ธ ๊ต๋์ ๊ฒฝ์ฐ ๊ณต์ฉ๊ธฐ๊ฐ๊ณผ์ ๊ด๋ จ์ฑ์ด ๋ช
ํํ์ง ์์ ๋ถ๋ฅ ๋ชจ๋ธ์์ Fig. 9์ ๊ฐ์ด B๋ฑ๊ธ์ ์์ธก๋ ฅ์ด ์ ํ๋ ์ผ๋ถ ์์ธ์ด ๋์์ ๊ฒ์ผ๋ก ์์๋๋ค.
๊ตํต๋์ ์ฐจ๋ํ์ค์ ์ํ ๊ต๋์ ํผ๋ก ํ์๊ณผ ๊ด๋ จํ์ฌ ์์ ์ฑ ๋ฐ ๋ด๊ตฌ์ฑ์ ์ํฅ์ ๋ฏธ์น๋ค. ํน์ด ์ฌํญ์ผ๋ก๋ Fig. 11๊ณผ ๊ฐ์ด ๊ตํต๋์ด ํ๋ฃจ 1,000๋ ์ดํ์ด๊ฑฐ๋ 10,000๋ ์ด์์ด๋ฉด C, D๋ฑ๊ธ ๊ต๋์ ๋น์จ์ด ๋ค์ ์ปค์ง๊ณ A๋ฑ๊ธ ๊ต๋์ ๋น์จ์ด ๋ค์ ์์์ง๋ ๊ฒฝํฅ์ด
์์๋ค. ํนํ, ๊ตํต๋์ด 10,000๋ ์ด์์ผ๋ก ๋ง์ ๊ฒฝ์ฐ ๋ฐ๋ณต๋๋ ์ฐจ๋ํ์ค์ผ๋ก ์ธํด ํผ๋ก๊ฐ ๋์ ๋์ด ๊ท ์ด์ด๋ ์ฒ์ง ๋ฑ ๊ต๋์ ์ฌ์ฉ์ฑ์ด ์ ํ๋๊ณ ๋
ธ๋ฉด์
ํ์ ๋ฑ๊ณผ ๊ฐ์ ๊ฒฐํจ๋ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ด ํฌ๊ธฐ ๋๋ฌธ์ ๊ทธ๋ฌํ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ์ด์ฒ๋ผ ๊ตํต๋์ด ๋งค์ฐ ๋ง๊ฑฐ๋ ์ ์ ๊ฒฝ์ฐ ์์ ๋ฑ๊ธ์ ์ ํ ๊ฒฝํฅ์ด
๋ํ๋ฌ๋ค.
Fig. 10. Safety Grade According to Completion Year of Bridges
Fig. 11. Safety Grade According to Average Daily Traffic
Table 8. Variable Importance and Permutation Feature Importance of the Random Forest Using Random Under-sampling
Rank
|
Variable importance
|
Permutation feature importance
|
1
|
Service period
|
Service period
|
2
|
Bridge length
|
Bridge length
|
3
|
Average daily traffic
|
Average daily traffic
|
4
|
Facility class
|
Facility class
|
5
|
Bridge width
|
Separation of northbound and southbound lanes
|
5. ๊ฒฐ ๋ก
์ด ์ฐ๊ตฌ์์๋ ๊ต๋์ ์์ ๋ฑ๊ธ ์์ธก์ ์ํด ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ธ ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋๋คํฌ๋ ์คํธ๋ฅผ ์ด์ฉํ์ฌ ๋ค์ค ๋ถ๋ฅ ๋ชจ๋ธ์ ๊ฐ๋ฐํ์๋ค. ์์ง๋ ๊ต๋ ๋ฐ์ดํฐ์์
๋ณ์ ์ถ๊ฐ, ์ ๊ฑฐ, ์ถ์ ๋ฐ ๋ค์ค๊ณต์ ์ฑ ๊ฒํ ๊ณผ์ ์ ๊ฑฐ์ณ ๋ชจ๋ธ ๊ตฌ์ถ์ ํ์ํ ์ต์ ์ ๋ณ์๋ค์ ๋์ถํ์๋ค. ๊ฐ๋ฐ๋ ๋ค์ค ๋ถ๋ฅ ๋ชจ๋ธ์ ์์ธก ์ฑ๋ฅ ํ๊ฐ
์ ์ผ๋ฐ์ ์ธ ํ๊ฐ ์งํ๊ฐ ์๋ ๋ฒ์ฃผ ๊ฐ ๋ถ๊ท ํ ๋ฐ์ดํฐ์ ์ ํฉํ ํ๊ฐ ์งํ๋ค์ ํตํด ๋ชจ๋ธ์ด ์ค์ํ ์์ธก ์ฑ๋ฅ์ ๋ณด์ ํ๋์ง ํ๋จํ์๋ค. ๋ํ ํ๋ จ ๋ฐ์ดํฐ์
๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ๊ฐ์ ์ํค๊ธฐ ์ํด ๋๋ค ์ธ๋ ์ํ๋ง, ๋๋ค ์ค๋ฒ ์ํ๋ง, SMOTETomek ์ํ๋ง ๊ธฐ๋ฒ์ ๊ฐ๊ฐ ์ ์ฉํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ์๋ค. ์ด ์ฐ๊ตฌ์์
๋์ถ๋ ์ฃผ์ ๊ฒฐ๋ก ์ ๋ค์๊ณผ ๊ฐ๋ค.
(1) ๊ฒฐ์ ๋๋ฌด ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ์ฌ ๊ต๋์ ์์ ๋ฑ๊ธ ๋ถ๋ฅ ๋ชจ๋ธ์ ๊ฐ๋ฐํ์๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ ํ์ฑ ๊ณผ์ ์์ ๊ฒฐ๊ณผ์ ์ค์ํ ์ํฅ์ ๋ฏธ์น๋ ๋ณ์๋ค์ ํ์
ํ
์ ์์๋ค. ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋๋คํฌ๋ ์คํธ์์ ๊ณตํต์ ์ผ๋ก ๊ณต์ฉ๊ธฐ๊ฐ, ๊ต๋์ฐ์ฅ, ๊ตํต๋ ๋ฐ ์์ค๋ฌผ์ข
๋ณ๋ฑ๊ธ๊ตฌ๋ถ์ด ์ฃผ์ ์ธ์๋ก ํ์ธ๋์๋ค. ํนํ ๊ต๋์ ๋
ธํํ์
์ง์ ์ ์ผ๋ก ๊ด๋ จ๋ ๊ณต์ฉ๊ธฐ๊ฐ์ ๋ชจ๋ธ์์ ๊ฐ์ฅ ํฐ ์ํฅ์ ๋ฏธ์น๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. ์ด์ ๊ฐ์ด ๋ณ์ ์ค์๋๋ฅผ ํตํด ํ์ธํ ์ฃผ์ ๋ณ์๋ค์ ์ค์ ์์๋๋ ๊ต๋์
๊ฑฐ๋์ผ๋ก๋ถํฐ ๋ถ์ํด ๋ณด์๋ ์ญ์ ์์ ๋ฑ๊ธ์ ํฐ ์ํฅ์ ๋ฏธ์น ๊ฒ์ผ๋ก ์์๋์๋ค.
(2) ์ผ๋ฐ์ ์ธ ์ ํ๋๋ก ๋ค์ค ๋ถ๋ฅ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๊ฒ์ ์๊ณก๋ ๊ฒฐ๊ณผ๋ฅผ ์ฐ์ถํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ค์ค ๋ถ๋ฅ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ์ ์ ํฉํ ํผ๋ํ๋ ฌ
๊ธฐ๋ฐ์ ๊ท ํ ์ ํ๋, ์ฌํ์จ, ROC ๊ณก์ ๋ฐ AUC์ ๊ฐ์ ๋ค์ํ ์งํ๋ค์ ํ์ฉํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ณด๋ค ๋๋คํฌ๋ ์คํธ๋ฅผ
์ ์ฉํ ๋ค์ค ๋ถ๋ฅ ๋ชจ๋ธ์ด ์ ๋ฐ์ ์ธ ์ฑ๋ฅ ํ๊ฐ ์งํ ์ธก๋ฉด์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ํ๋๋ค. ๋ฐ๋ผ์ ๋๋คํฌ๋ ์คํธ๊ฐ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ณด๋ค ๊ต๋์ ์์ ๋ฑ๊ธ ์์ธก์ ๋์ฑ
์ ํฉํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ๋จ๋์๋ค. ๋ํ, ์ํ๋ง ๊ธฐ๋ฒ์์๋ ๋ ๊ฐ์ง ๋ถ๋ฅ ๋ชจ๋ธ ๋ชจ๋์์ ๋๋ค ์ธ๋ ์ํ๋ง์ด ๋์ฒด๋ก ์ฐ์ํ ์์ธก๋ ฅ์ ๋ณด์์ผ๋ฉฐ, ํนํ ๋
ธํํ๊ฐ
๋น๊ต์ ์ฌํ์ฌ ์ ์ง๊ด๋ฆฌ ์ธก๋ฉด์์ ์ค์ํ C, D๋ฑ๊ธ์ ์ฌํ์จ์ด ์๋ฑํ ๋ฐ์ด๋ฌ๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก ๊ต๋์ ์์ ๋ฑ๊ธ ์์ธก์ ์ํด์๋ ๋๋ค ์ธ๋ ์ํ๋ง ๊ธฐ๋ฒ์ด
์ ์ฉ๋ ๋๋คํฌ๋ ์คํธ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ฐ๋์งํ๋ค๊ณ ํ๋จ๋๋ค.
(3) C, D๋ฑ๊ธ ๊ต๋์ C, D๋ฑ๊ธ ๊ทธ๋๋ก ๋ถ๋ฅํ์ฌ ์์ธกํ ํ๋ฅ ์ธ ์ฌํ์จ์ ๋๋ค ์ธ๋ ์ํ๋ง ๊ธฐ๋ฒ์ด ์ ์ฉ๋ ๋๋คํฌ๋ ์คํธ ๋ชจ๋ธ์์ 83.4%๋ก,
๊ธฐ์กด์ ์ด์ง ๋ถ๋ฅ ๋ชจ๋ธ์์์ 67.3%๋ณด๋ค 16.1%p ํฅ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์๋ค. ์ด๋ ์ด ์ฐ๊ตฌ์ ์ ์ฉํ ๋ค์ค ๋ถ๋ฅ ๋ชจ๋ธ์ด ๋ ๊ฐ์ง ๋ถ๋ฅ๋ง ๊ฐ๋ฅํ
์ด์ง ๋ถ๋ฅ ๋ชจ๋ธ๊ณผ ๋น๊ตํ ๋ ๋์ฑ ๋ค์ํ ๊ต๋ ์์ ๋ฑ๊ธ์ ๊ณ ๋ คํ ์ ์๋ค๋ ์ฅ์ ๊ณผ ๋๋ถ์ด ์ค์ ๋ฑ๊ธ ๊ต๋์ ์์ธก๋ ฅ์ด ์ฐ์ํจ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
(4) ์ ์๋ ๊ธฐ๋ฒ์ ์ ๊ฒ์ด ์ค์๋์ง ๋ชปํ๊ฑฐ๋ ์ ๊ฒ ์๊ธฐ๊ฐ ์ด๊ณผ๋ ๊ต๋์ ๋ฐ์ดํฐ์ ์ ์ฉํ๋ฉด ํ์ฌ ๋๋ ํน์ ์๊ธฐ์ ๊ต๋ ์์ ๋ฑ๊ธ์ ์์ธกํ ์ ์๋ค.
ํนํ, ์ ์๋ ๊ธฐ๋ฒ์ C, D๋ฑ๊ธ ๊ต๋์ ์์ธก๋ ฅ์ด ์ฐ์ํ๋ฏ๋ก ๊ต๋์ ์ ์ ํ ๋ณด์๋ณด๊ฐ ์๊ธฐ ์ถ์ ๋ฐ ์ ์ง๊ด๋ฆฌ ์์ฐ ์ฐ์ถ์ ์ ์ฉํ๊ฒ ํ์ฉ๋ ์ ์์ ๊ฒ์ผ๋ก
๊ธฐ๋๋๋ค. ์ด ์ฐ๊ตฌ๋ ์ผ๋ฐ๊ตญ๋์ ๊ต๋์ ๋ถ์์ ์ง์คํ์ง๋ง, ์ถํ ๊ณ ์๊ตญ๋๋ ์ง๋ฐฉ๋์ ๊ต๋์ ์์ ๋ฑ๊ธ ๋ถ์์๋ ํ์ฅํ์ฌ ์ ์ฉํ ์ ์์ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.