Mobile QR Code QR CODE : Journal of the Korean Society of Civil Engineers

  1. 정회원 ․ 교신저자 ․ 부천대학교 토목공학과 교수 (Corresponding Author ․ Bucheon University ․ pyh@bc.ac.kr)



철근콘크리트, 손상 가지, 컨볼루션 신경망, 전이학습, 정확도, F1-score, 혼동행렬
Reinforced concrete, Damage detection, Convolution neural network(CNN), Transfer learning, Accuracy, F1-score, Confusion matrix

1. 서 론

철근콘크리트 구조물 손상 이미지 특성 추출을 위한 딥러닝 프레임워크 백본을 개발하기 위해서는 관련 이미지 데이터의 양과 품질이 반드시 고려되어야 한다. 철근콘크리트 구조물 손상 이미지 데이터를 수집하는 데 비용이 많이 들거나 심지어 불가능할 수도 있어 소규모 이미지 데이터 세트로도 특성 추출을 위한 딥러닝 프레임워크 백본을 도출할 수 있는 전이 학습(transfer learning)이 활용될 수 있다.

전이 학습은 대규모 데이터 세트로 사전 훈련된 모델이 새로운 문제를 일반화하고 해결할 수 있다는 개념에 기반하며, 이때 사전 훈련된 모델의 일부 또는 전체를 가져와, 새로운 데이터 특성에 맞게 미세 조정하는 방법이다.

사전 훈련된 모델의 미세조정으로 새로운 데이터 세트의 특성을 추출하고 적은 양의 데이터로도 높은 성능을 달성할 수 있다. 이로써 전체 네트워크를 다시 훈련할 필요가 없으므로 연산 시간과 계산 리소스를 절약할 수 있다. 사전 훈련된 모델 활용에는 Fig. 1과 같이 세 가지 방법론 중 하나를 적용하게 된다.

철근콘크리트 손상 특성 추출을 위한 최적의 컨볼루션 신경망 백본을 도출하려면 방대한 양의 고품질 이미지 데이터 세트가 필요하지만, 데이터 확보의 어려움과 품질 문제로 인해 수집된 모든 데이터를 활용하기 어려운 상황이다. 또한, 이미지의 특성에 따라 최적의 백본과 하이퍼파라미터 조합이 달라질 수 있어, 시행착오적인 탐색 과정이 필수적이다.

이에 본 연구에서는 전이학습을 적용하여 한정된 이미지 데이터 세트에서도 최적의 성능을 발현할 수 있는 백본과 하이퍼파라미터를 도출하는 방법을 연구하였다. 이를 위해 확보된 철근콘크리트 손상 이미지 데이터 세트를 활용하여 전이학습 아키텍처 상단의 분류기를 새롭게 훈련 시키고(Fig. 1(b)), 필요에 따라 Fig. 1(c)와 같이 상단 컨볼루션 레이어도 미세 조정하여 최적의 성능을 발현할 수 있는 백본과 하이퍼파라미터를 도출하였다.

비록 사전학습에 사용된 ImageNet과 같은 이미지 데이터는 콘크리트 손상 이미지와 직접적인 유사성이 크지 않지만, 초기 계층에서 학습한 에지, 모양, 질감 등의 일반적 시각 특성은 다양한 도메인에 효과적으로 전이될 수 있다. 또한 본 연구에서는 데이터 증식 기법을 적용하여 다양한 환경 조건을 반영함으로써, 전이학습의 일반화 효과를 극대화하고 높은 분류 성능을 달성할 수 있다.

Fig. 1. Transfer Learning, (a) Train Whole Model, (b) Apply a New Classifier, (c) Fine-Tuning the Base

../../Resources/KSCE/Ksce.2025.45.4.0513/fig1.png

2. 전이학습 아키텍처 연구 동향

최근 몇 년 동안 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)는 사전 훈련된 아키텍처를 포함한 최첨단 컨볼루션 신경망과 딥러닝 기술을 주도해 왔다.

AlexNet(Krizhevsky et al., 2012)를 시작으로 VGG-19, ResNet50, Xception 및 DenseNet121과 같은 사전 훈련된 아키텍처가 개발되고 있다(Jordan, 2018).

사전 훈련된 아키텍처의 가중치 및 관련 정보는 케라스 라이브러리에서 제공되고 있다(Chollet, 2015). 사전 훈련된 아키텍처 VGG16(Visual Geometry Group 16) 및 VGG19(Visual Geometry Group 19)는 서로 적층된 3 × 3 컨벌루션 레이어로만 구성된 가장 간단한 아키텍처 중 하나이다(Simonyan and Zisserma, 2014). 특성 맵(feature map)의 크기 감소는 최대 풀링(maximum pooling)을 통해 이루어진다.

컨볼루션 신경망 레이어를 깊게 쌓을수록 정확도가 높아져야 하지만 실제로는 레이어가 더 많아질수록 기울기 소실 문제로 학습이 어려워진다. 이에 컨볼루션 신경망 입력값과 출력값의 차이 즉 잔차만을 학습하게 하여 레이어를 깊게 쌓더라도 기울기 소실을 줄일 수 있도록 잔차블록을 사용하는 ResNet(Residual Network)도 개발되었다(He et al., 2015). ResNet 아키텍처는 여러 가지 버전이 있으며 일반적으로 18, 34, 50, 101, 152 레이어 버전이 활용되고 있다.

작은 디바이스나 제한된 리소스에서 효율적으로 사용할 수 있도록 설계된 EfficientNet(Efficient Network)에는 네트워크 깊이, 너비 및 해상도를 모두 함께 조절하는 복합 스케일링이 적용되어 성능과 연산 시간 등의 효율성이 균형 있게 유지된다. EfficientNet은 B0부터 B7까지 다양한 모델 크기를 가지고 있다(Tan and Le, 2019). Inception(Inception Network)는 레이어 깊이별 분리 가능한 컨볼루션과 1 × 1 포인트별 컨볼루션을 사용하여 특성 맵 크기를 줄인다(Lin et al., 2014).

DenseNet(Densely Connected Convolutional Network)은 모든 레이어가 모든 이전 레이어에 밀도 있게 연결되는 구조를 가지는 아키텍처이다. 모든 레이어가 네트워크의 출력에 직접 접근할 수 있는 구조로 기울기의 흐름을 최적화하고 기울기 소실 문제를 최소화하여 깊은 레이어로 정확도를 강화한다(Huang et al., 2017).

MobileNet(Mobile Network)은 컴퓨터 비전 분야에서 사용되는 경량 컨볼루션 신경망 아키텍처로 모바일 및 임베디드 디바이스에서 실행되는 애플리케이션에 적합하다. MobileNet은 여러 가지 버전이 제공되며 MobileNetV1, MobileNetV2, MobileNetV3 등이 있다(Howard et al., 2019). 이러한 사전 훈련된 전이학습 기반 아키텍처는 콘크리트 구조물의 다양한 손상 유형을 자동으로 탐지하고 분석하는 데에도 활발히 적용되고 있다.

Zadeh et al.(2024)은 딥러닝 모델을 활용하여 콘크리트 표면의 균열을 효과적으로 분류하고 다양한 형상의 손상을 자동 인식하는 방식을 제안하였다. 또한 U-Net, DeepLabV3+과 같은 시맨틱 세그멘테이션 아키텍처는 균열의 경계, 너비, 깊이 등을 정밀하게 추출할 수 있어 정량적 손상 분석 및 유지보수 계획 수립에 매우 유용하게 활용된다(Hang et al., 2023). Zhang et al.(2025)은 MobileNetV3 기반 경량 네트워크를 개선하여 콘크리트 구조물의 균열을 신속하고 정확하게 인식하는 모델을 제안하였으며, 이는 소형 디바이스에서도 높은 성능을 유지하는 것이 특징이다.

3. 철근콘크리트 구조물 손상 이미지 데이터

한국지능정보사회진흥원(National Information Society Agency, NIA)의 AI 통합 플랫폼 「AI Hub」에서 제공하는 철근콘크리트 구조물 박리, 백화, 철근 노출, 내부 철근 부식 의심, 거북이등 균열, 단일 방향 균열 이미지를 활용하였다.

총 3,500개의 이미지가 사용되었으며 이미지 크기는 224 × 224 픽셀 해상도로 재설정하였다. 균열 감지에 있어 거북이등 균열(crazing cracks)은 표면균열, 건조수축 균열의 가능성이 높고, 단일 방향 균열(unidirectional cracks)은 구조적 균열 가능성까지 포함함으로 조기 손상 감지에 유의미한 정보를 제공할 수 있다고 판단하여 두 가지 형태의 균열 이미지 감지를 고려하였다. 전체 이미지에서 훈련 및 검증 이미지를 각각 7:3으로 나누었다. 콘크리트 손상 종류에 따라 훈련 및 검증에 활용된 이미지 상세는 Table 1과 같다.

Table 1. Number of Image Data

Class

Training Image Data

Validation Image Data

Damage-free

350

150

Spalling

350

150

Efflorescence

350

150

Rebar exposure

350

150

Possible rebar corrosion

350

150

Crazing cracks

350

150

Unidirectional cracks

350

150

4. 아키텍처 시뮬레이션 조건

컨볼루션 신경망 성능에 영향을 미치는 매개변수는 다양하다. 손실 최소화를 위한 옵티마이저로는 RMSprop와 Adam을 적용하였으며, 한정된 학습 이미지에 따른 과대적합을 방지하기 위해 드롭아웃과 이미지 증식을 활용하였으며 단일 실험으로 이를 검증하였다.

이미지 증식은 원본 이미지에 다양한 무작위 변형을 가하여 유사하지만 서로 다른 새로운 학습 샘플을 생성함으로써 데이터 다양성을 높이고 모델의 일반화 성능을 향상시킬 수 있다. 본 연구에서는 실제 환경에서 발생 가능한 조도 변화, 배경 차이, 손상 형태의 복잡성 등을 반영하기 위해 회전, 이동, 기울임, 확대 및 축소, 밝기 조정 등의 증식 조건을 적용하였으며, 구체적인 설정은 Table 2에 정리되어 있다. 이러한 이미지 증식은 제한된 데이터셋의 한계를 보완하고 다양한 환경 조건에 대한 모델의 적응력을 높이는 데 기여할 수 있을 것으로 판단된다.

Table 2. Image Generation Condition

Range

Horizontal

flip

Rotation

Width

Height

Shear

Brightness

Zoom

0∼200

-0.1∼0.1

-0.1∼0.1

-0.1∼0.1

0.8∼1.2

0.9∼1.1

True

5. 바닐라 컨볼루션 신경망 아키텍처 시뮬레이션

전이학습에 적용될 사전학습 컨볼루션 신경망 아키텍처의 성능 평가 비교를 위하여 Table 3, 4와 같이 사전 학습되지 않은 바닐라 컨볼루션 신경망 아키텍처를 구축하여 시뮬레이션 하였다.

Table 3의 바닐라 컨볼루션 신경망 아키텍처는 4개의 컨볼루션 레이어로 구성하고 최대값 폴링 적용으로 특성 맵 크기 축소 및 특성 특징을 추출하였다. Table 4에서는 출력층 활성화 함수로 다중 클래스 분류에 적합한 Softmax 함수를 사용하였다. 학습률은 안정적인 수렴을 위해 1×10⁻⁵로 설정하였고, 최대 에포크 수는 충분한 학습을 위해 1,000으로 지정하였다. 손실 함수는 다중 클래스 분류에서 널리 사용되는 Categorical Crossentropy를 적용하였으며, 옵티마이저로는 RMSprop과 Adam을 각각 적용하여 최적의 성능을 확인하였다.

Table 3~4의 바닐라 컨볼루션 신경망 아키텍처에 있어서 옵티마이저 RMSprop와 Adam, 드롭 아웃 및 이미지 증식 적용 여부에 따른 8가지 경우를 시뮬레이션 하였으며 분석된 top-1 검증 정확도를 Table 5에 정리하였다.

Table 5에서 바닐라 컨볼루션 신경망 아키텍처의 top-1 검증 정확도는 52.5~67.5 %로 시뮬레이션 되었으며, 옵티마이저 Adam과 이미지 증식이 적용된 case 7의 top-1 검증 정확도가 67.5 %로 가장 높은 것으로 나타났다.

Table 3. Vanilla Convolution Neural Network

Layer type

Output Shape

Number of Parameters

(Total number of weights)

Conv2D_1

223,223,32

416

MaxPooling2D_1

111,111,32

0

Conv2D_2

110,110,64

8,256

MaxPooling2D_2

55,55,64

0

Conv2D_3

54,54,128

32,896

MaxPooling2D_3

27,27,128

0

Conv2D_4

26,26,256

131,328

MaxPooling2D_4

13,13,256

0

Flatten

43,624

0

Dense (ReLU)

256

11,075,840

Dense (softmax)

7

1,799

Table 4. Parameters of Vanilla Convolution Neural Network

Parameters

Name/Value

Activation function

Softmax

Rate of learning

1 × 10-5

Epochs

1,000

Batch size

20

Loss function

Categorical cross entropy

Optimizer

RMSprop / Adam

Table 5. Top-1 Validation Accuracy of Vanilla Convolution Neural Network

Condition

Case ID

1

2

3

4

5

6

7

8

Optimizer

RMSprop

Adam

Dropout

Image generation

Top-1 Validation accuracy (%)

59.5

55.0

54.0

52.5

55.5

53.0

67.5

66.5

6. 전이학습 아키텍처 시뮬레이션

전술한 바와 같이 전이학습에 활용되는 사전 훈련된 컨볼루션 신경망 아키텍처는 대량의 데이터 세트에서 미리 훈련된 아키텍처이다. 충분히 큰 이미지 데이터 세트로 훈련된 아키텍처는 일반화된 아키텍처로 원래 훈련된 이미지와는 완전히 다른 클래스에 대해서도 매우 유용하게 활용된다.

이미지 특성 추출은 이미지 데이터 세트에서 공통된 특성을 뽑아내는 것으로 도출된 특성을 바탕으로 분류기를 훈련시키게 된다. 특성추출은 빠른특성추출(fast feature extraction)과 특성추출(feature extraction)로 나누어진다(Lin et al., 2010).

빠른특성추출은 많은 연산이 수반되는 합성곱 연산을 한 번만 실행하기 때문에 연산 비용이 적게 들지만 과대접합을 최소화할 수 있는 데이터 증식을 적용할 수 없다. 특성추출은 새로운 이미지 데이터에서 엔드-투-엔드로 실행되기 때문에 모든 입력 이미지가 매번 합성곱 기반층을 통과함으로 이미지 증식을 적용할 수 있다.

사전 훈련된 가중치를 활용 가능한 38개의 딥러닝 모델의 성능을 케라스 홈페이지에서 제시하고 있다. 옵티마이저(RMSProp, ADAM) 종류와 드롭아웃 및 이미지 증식 적용, 미세조정에 따른 빠른특성추출과 특성추출의 성능 평가를 위하여 Table 6과 같이 16개 경우로 철근콘크리트 구조물 손상 이미지 특성 추출 시뮬레이션 하였다.

Fig. 2(a)의 철근콘크리트 구조물 철근 노출 이미지를 본 연구에서 훈련된 VGG19 전이학습 컨볼루션 신경망에 입력하였을 경우, 해당 신경망 2번째와 9번째 층에서 컨볼루션 된 특성 맵은 Fig. 3(b)3(c)와 같이 나타난다.

Fig. 3에서 컨볼루션 신경망의 특성상, 하위층(2번째 층)에서는 입력 이미지의 세부 정보가 비교적 그대로 유지되지만, 상위층(9번째 층)으로 갈수록 반복적인 필터링과 추상화를 통해 의미없는 정보를 제거하고, 이미지의 고유한 클래스 정보를 점점 더 뚜렷하게 반영하게 된다. 이러한 특성은 모델이 어떤 이미지 영역에 주목했는지를 이해하기 어렵게 만들 수 있으므로, 향후 Grad-CAM 등의 시각화 기법을 활용하여 분류 근거에 대한 직관적 설명을 보완할 수 있을 것이다. Table 8의 시뮬레이션 조건에 따른 전반적 예측 품질을 평가할 수 있는 최소 및 최대 top-1 검증 정확도를 Table 7에 정리하였다.

Table 7에서 case는 Table 6의 시뮬레이션 조건이다. Table 7을 살펴보면, 전이학습 아키텍처와 시뮬레이션 조건에 따라 top-1 검증 최대 정확도가 70.5 %(MobileNetV3-Small)에서 86.0 % (EfficientNetB7)까지의 높은 변동 폭을 보이는 것으로 나타났다. 동일 전이학습 아키텍처에 있어서도 시뮬레이션 조건에 따라 top-1 검증 정확도가 높게 변화하는 것으로 분석되었다.

Fig. 2. Examples of Images

../../Resources/KSCE/Ksce.2025.45.4.0513/fig2.png

Fig. 3. Convolution Results of Exposed Rebar Images, (a) Input Image, (b) Part of the Convolution Result of the Second Layer of the Neural Network, (c) Part of the Convolution Result of the Ninth Layer of the Neural Network

../../Resources/KSCE/Ksce.2025.45.4.0513/fig3.png

Table 6의 시뮬레이션 조건에 따라 50 % 이상의 top-1 검증 정확도 변동폭(range)을 보이는 아키텍처는 EfficientNetB7 (71.7 %), VGG16(51.6 %), VGG19(51.6 %), DenseNet121 (57.1 %), DenseNet201(54.6 %), MobileNetV3-Large(56.6 %) 등으로, 이들 모델은 시뮬레이션 조건에 민감하게 반응하는 특성이 있으므로 철근콘크리트 구조물 손상 특성 추출을 위한 백본으로 활용 시 시뮬레이션 조건 선택에 신중한 접근이 요구된다고 평가된다.

Table 7의 시뮬레이션 조건에 따른 F1-score 분석 결과는 Table 8에 정리하였다. F1-score는 정밀도와 재현율을 동시에 고려한 성능 지표로, 특히 불균형 클래스 문제에서의 성능 평가에 강점이 있다.

Table 7~8에서 다양한 전이학습 아키텍처에 대한 실험 결과, top-1 검증 정확도와 F1-score 간에는 일관된 경향성을 보이지 않으며, 모델에 따라 성능 지표 간 불일치의 정도가 크게 나타나는 것으로 분석되었다. 특히 동일한 시뮬레이션 조건에서 top-1 검증 정확도가 상대적으로 높음에도 불구하고 F1-score는 낮거나 반대로 top-1 검증 정확도는 낮지만 F1-score는 상대적으로 높은 경우가 존재하였다. 이는 단일 성능 지표만으로 모델의 예측력을 평가할 경우, 실제 분류 성능을 왜곡할 가능성이 있음을 시사한다.

예를 들어, InceptionV3는 top-1 검증 정확도가 77.9 %로 상위권에 속하면서 동시에 F1-score 역시 76.5 %로 매우 우수한 균형을 보였다. 반면, EfficientNetB7은 top-1 검증 정확도가 86.0 %로 가장 높은 값을 기록했으나, F1-score는 57.9 %에 그쳐 top-1 검증 정확도 대비 실질적인 분류 성능이 낮게 나타났다. 이와 같은 현상은 해당 모델이 주로 다수 클래스를 중심으로 학습되며, 소수 클래스 예측 성능은 저하된 결과로 해석된다.

특히 MobileNet 계열은 이러한 top-1 검증 정확도와 F1-score 간 불일치가 가장 두드러지게 나타났다. MobileNetV3-Large는 최대 top-1 검증 정확도 80.0 %를 기록하며 고성능 모델로 보일 수 있으나, F1-score는 41.4 %에 불과하였다. MobileNetV2-1024 역시 74.0 %의 top-1 검증 정확도를 기록하면서 안정적인 결과를 보였으나, F1-score는 58.7 %로 top-1 검증 정확도와 다소 괴리가 있다. 이처럼 MobileNet 계열에서 top-1 검증 정확도는 일정 수준 이상 유지되지만, F1-score는 상대적으로 낮은 양상을 보이며, 이는 Fig. 4(b)의 혼동행렬(confusion matrix)과 같이 전반적인 예측의 불균형성과 연관된다.

Fig. 4(a)의 InceptionV3 모델과는 달리 Fig. 4(b)의 MobileNet 계열 모델들은 클래스 0(무손상 이미지)에 과도하게 편향된 오분류 경향을 보인다. 이는 모델이 손상된 클래스를 효과적으로 구분하지 못하고 무손상으로 잘못 예측하는 문제로 이어진다.

이러한 현상은 MobileNet의 구조적 특성에 기인한다. MobileNet은 모바일 및 임베디드 환경에서의 효율성을 고려하여 설계된 경량 모델로, Depthwise Separable Convolution을 기반으로 파라미터 수와 연산량을 최소화한다(Howard et al., 2017). 그러나 이러한 구조는 특성 추출 능력 저하를 초래하며, 이는 철근콘크리트 손상 이미지와 같은 복잡하고 미세한 시각적 정보 처리에 한계를 드러내는 주요 원인이 된다(Xu et al., 2021). 특히 균열, 박리 등과 같이 경계가 불분명하고 클래스 간 시각적 차이가 미세한 경우에는 얕은 층과 적은 채널 수로 구성된 MobileNet은 한계를 가질 수밖에 없다(Xu et al., 2021; Zadeh et al., 2024).

따라서 MobileNet 계열은 속도와 효율성을 우선시하는 응용에는 적합할 수 있으나, 구조 손상 분류와 같이 정밀도와 균형성이 요구되는 과제에서는 성능 왜곡 가능성이 존재하며, 반드시 F1-score와 그 안정성을 병행하여 평가하는 것이 필요하다(Sandler et al., 2018; Xu et al., 2021).

Fig. 4. Confusion Matrix of MobileNet, (a) InceptionV3, (b) MobileNetV3 Small

../../Resources/KSCE/Ksce.2025.45.4.0513/fig4.png

Table 6. Simulation Case of Transfer Learning Architecture

Case

Optimizer

Dropout

Generation

Extraction Type

Fine-tuning

1

RMSprop

Yes

Yes

feature extraction

No

2

Yes

3

No

fast feature extraction

No

4

Yes

5

No

Yes

feature extraction

No

6

Yes

7

No

fast feature extraction

No

8

Yes

9

Adam

Yes

Yes

feature extraction

No

10

Yes

11

No

fast feature extraction

No

12

Yes

13

No

Yes

feature extraction

No

14

Yes

15

No

fast feature extraction

No

16

Yes

Table 7. Top-1 Validation Accuracy of Transfer Learning Architecture (%)

ResNet50

ResNet152

EfficientNetB7

InceptionV3

VGG16

VGG19

Case

Accuracy

Case

Accuracy

Case

Accuracy

Case

Accuracy

Case

Accuracy

Case

Accuracy

2

76.9

2

75.0

6

86.0

2

77.9

6

72.5

6

72.5

12

29.6

11

33.3

12

14.3

15

44.7

9

20.9

13

20.9

Range

47.3

Range

41.7

Range

71.7

Range

33.2

Range

51.6

Range

51.6

DenseNet121

DenseNet201

MobileNetV2 256

MobileNetV2 1024

MobileNetV3 Large

MobileNetV3 Small

Case

Accuracy

Case

Accuracy

Case

Accuracy

Case

Accuracy

Case

Accuracy

Case

Accuracy

2

79.0

6

76.5

2

74.0

2

74.0

2

80.0

6

70.5

10

21.9

10

21.9

15

36.9

15

58.7

15

23.4

10

33.5

Range

57.1

Range

54.6

Range

37.1

Range

15.3

Range

56.6

Range

37.0

Table 8. F1-score of Transfer Learning Architecture (%)

ResNet50

ResNet152

EfficientNetB7

InceptionV3

VGG16

VGG19

Case

F1-score

Case

F1-score

Case

F1-score

Case

F1-score

Case

F1-score

Case

F1-score

2

71.9

2

72.1

6

57.9

2

76.5

6

65.0

6

69.0

12

22.3

11

27.5

12

3.6

15

49.0

9

14.3

13

14.3

Range

49.6

Range

44.6

Range

54.3

Range

27.5

Range

50.7

Range

54.7

DenseNet121

DenseNet201

MobileNetV2 256

MobileNetV2 1024

MobileNetV3 Large

MobileNetV3 Small

Case

F1-score

Case

F1-score

Case

F1-score

Case

F1-score

Case

F1-score

Case

F1-score

2

51.3

6

64.5

2

35.0

2

25.8

2

41.4

6

16.7

10

14.3

10

3.58

15

51.0

15

58.7

15

16.7

10

24.4

Range

37.0

Range

60.9

Range

16.0

Range

32.9

Range

24.7

Range

7.7

7. 결 론

본 연구는 철근콘크리트 구조물의 손상 이미지를 효과적으로 분석하기 위해, 전이학습 기반의 다양한 백본 모델의 성능을 비교하고 최적의 아키텍처를 도출하고자 하였다. 이를 위해 3,500장의 철근콘크리트 손상 이미지 데이터를 바탕으로 12개의 사전학습 딥러닝 모델과 16가지 하이퍼파라미터 조합을 적용하여 실험을 수행하였다.

실험 결과, 바닐라 컨볼루션 신경망의 최고 top-1 검증 정확도는 67.5 % 수준이었으나, 전이학습을 적용한 EfficientNetB7 모델은 86.0 %의 정확도를 기록하였다. 그러나 top-1 검증 정확도가 항상 분류 성능을 의미하는 것은 아니며, F1-score 기준에서는 InceptionV3가 가장 균형 잡힌 성능을 보였다. 특히 EfficientNetB7은 높은 정확도에도 불구하고 F1-score는 57.9 %에 그쳐 클래스 불균형에 대한 취약성이 확인되었다.

또한 MobileNet 계열은 경량화된 구조로 인해 정확도와 F1-score 간 괴리가 가장 크게 나타났고, 무손상 이미지(클래스 0)에 편중된 오분류 경향도 관찰되었다. 이는 해당 모델이경량성과 효율성은 우수하지만, 미세한 시각적 차이를 포착하는 데 구조적 한계를 지니고 있음을 시사한다.

따라서 철근콘크리트 손상 이미지 분석과 같이 고정밀·고균형 분류가 요구되는 과제에서는 단일 정확도 지표에 의존하기보다는 F1-score 등 종합적인 성능 지표를 함께 고려해야 한다. 특히 MobileNet 계열은 실시간성과 효율성이 요구되는 현장 적용에는 적합할 수 있으나, 정밀 진단을 위한 연구 또는 시스템 설계에는 신중한 적용이 요구된다.

향후 연구에서는 보다 다양한 데이터셋과 환경에서의 실험을 통해 모델의 강건성을 검증하고, 실시간 적용 가능성을 높이는 방향으로 연구를 확장할 필요가 있다. 특히, 데이터 다양성을 확보하고 실제 구조물 환경에서의 모델 적용성을 평가하는 후속 연구가 병행된다면, 본 연구의 결과는 실무적 활용도 측면에서도 기여할 수 있을 것이다.

References

1 
"Chollet, F. (2015). “Keras: The Python deep learning library.” Available online: https://keras.io/api/applications/"URL
2 
"Hang, J., Wu, Y., Li, Y., Lai, T., Zhang, J. and Li, Y. (2023). “A deep learning semantic segmentation network with attention mechanism for concrete crack detection.” Structural Health Monitoring., Vol. 22, No. 5, pp. 3006-3026, https://doi.org/10.1177/14759217221126170."DOI
3 
"He, K., Zhang, X., Ren, S. and Sun, J. (2015). “Deep residual learning for image recognition.” arXiv preprint, arXiv:1512.03385."DOI
4 
"Howard, A. G., Sandler, M., Chu, G., Chen, L. C., Chen, B., Tan, M., Wang, W., Zhu, Y., Pang, R., Vasudevan, V., Le, Q. V. and Adam, H. (2019). “Searching for MobileNetV3.” Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 1314-1324."URL
5 
"Howard, A.G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Andreetto, M. and Adam, H. (2017). “MobileNets: Efficient convolutional neural networks for mobile vision applications.” arXiv preprint arXiv:1704.04861."DOI
6 
"Huang, G., Liu, Z., van der Maaten, L. and Weinberger, K. Q. (2017). “Densely connected convolutional networks.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4700-4708, https://doi.org/10.1109/CVPR.2017.243."DOI
7 
"Jordan, J. (2018). “Common architectures in convolutional neural networks.” Available online: https://www.jeremyjordan.me/ convnet-architectures/"URL
8 
"Krizhevsky, A., Sutskever, I. E. and Hinton, G. (2012). “ImageNet classification with deep convolutional neural networks.” Advances in Neural Information Processing Systems, Vol. 25, pp. 1097-1105."URL
9 
"Lin, M., Chen, Q. and Yan, S. (2014). “Network in network.” arXiv preprint, arXiv:1312.4400."DOI
10 
"Lin, Y., Lv, F., Zhu, S., Yang, M., Cour, T., Yu, K., Cao, L. and Huang, T. (2010). “Large-scale image classification: fast feature extraction and SVM training.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 761-768."DOI
11 
"Sandler, M., Howard, A., Zhu, M., Zhmoginov, A. and Chen, L. C. (2018). “MobileNetV2: Inverted residuals and linear bottlenecks.” arXiv preprint arXiv:1801.04381."DOI
12 
"Simonyan, K. and Zisserman, A. (2014). “Very deep convolutional networks for large-scale image recognition.” arXiv preprint, arXiv:1409.1556."DOI
13 
"Tan, M. and Le, Q. V. (2019). “EfficientNet: Rethinking model scaling for convolutional neural networks.” Proceedings of the 36th International Conference on Machine Learning (ICML), pp. 6105-6114."URL
14 
"Xu, Y., Fan, Y., Qiao, W. and Li, H. (2021). “Lightweight deep learning model of semantic segmentation for complex concrete cracks in actual bridge inspection.” Structural Health Monitoring, 2021, https://doi.org/10.12783/shm2021/36273."DOI
15 
"Zadeh, S. S., Birgani, S. A., Khorshidi, M. and Kooban, F. (2024). “Concrete surface crack detection with convolutional-based deep learning models.” arXiv preprint, arXiv:2401.07124."DOI
16 
"Zhang, Y., Ni, Y. Q., Jia, X. and Wang, Y. W. (2025). “Lightweight concrete crack recognition model based on improved MobileNetV3.” Scientific Reports, Vol. 15, No. 1, 15704, https://doi.org/10.1038/s41598-025-00468-7."DOI