나종호
(Jong Ho Na)
1
신휴성
(Hyu Soung Shin)
2†
이재강
(Jae Kang Lee)
3
윤일동
(Il Dong Yun)
4
-
한국건설기술연구원 학생연구원, 한국외국어대학교 컴퓨터전자시스템공학과 박사과정
(Korea Institute of Construction Technology, Hankuk University of Foreign Studies․najongho@kict.re.kr)
-
종신회원․교신저자․한국건설기술연구원 미래스마트건설연구본부 본부장, 공학박사
(Corresponding Author․Korea Institute of Construction Technology․hyushin@kict.re.kr)
-
정회원․한국건설기술연구원 미래스마트건설연구본부 수석연구원, 공학박사
(Korea Institute of Construction Technology․jaekang.lee@kict.re.kr)
-
한국외국어대학교 컴퓨터공학과 교수, 공학박사
(Hankuk University of Foreign Studies․yun@hufs.ac.kr)
Copyright © 2021 by the Korean Society of Civil Engineers
키워드
토목 현장 데이터, 건설 장비, 딥러닝, 영상처리
Key words
Civil-engineering dataset, Construction equipment, Deep learning, Image processing
1. 서 론
최근 정부는 산업안전보건법 및 중대재해기업처벌법 재정을 통해 산업현장의 사망 및 안전사고 대응을 지속적으로 강화하고 있다. 그럼에도, 2020년 사고사망자
현황에 의하면 건설 분야에서 458명의 사망자가 발생하여 51.9 %로 전체 산업에서 가장 높은 비율을 차지하고 있다(MOEL, 2020). 정부는 ‘중소형 민간 건축공사장 안전관리 강화 대책’에서 대형 공사장, 공동주택, 공공 공사장에만 의무화돼 있는 CCTV 설치를 중소형 민간 공사장까지
범위를 확대하였다(Seoul Metropolitan Government, 2021).
더욱이 최근에 딥러닝 기반의 컴퓨터비전 기술을 활용한 건설 현장 안전관리기술 개발을 적극적으로 추진함으로써 안전성 향상을 위한 많은 연구가 수행되고
있다. 컴퓨터비전 기술을 적용하기 위해서는 대규모의 데이터셋 확보가 필수적이지만 데이터 확보에 많은 어려움을 겪고 있다. 대표적으로 공개된 ACID
데이터셋(Xiao and Kang, 2021)은 10개 건설 장비 객체에 대해서 1만장을 공개하지만 데이터 및 객체 수는 제한적이며 건축, 토목 현장을 혼합하여 제공한다. 이러한 부분을 보완하기
위해 본 연구에서는 택지 조성 토공 현장을 섭외하고, 건설장비 등 현장의 주요 객체를 선정하여 영상 데이터를 1년여 간에 걸려 수집하였다. 수집된
대상객체 영상을 기반으로 AI 학습이 가능한 라벨링 작업을 진행하였으며 데이터의 질적 수준 및 타당성 검토를 통해 CCTV 영상 기반의 대규모 건설
현장 인공지능 학습용 데이터셋 구축을 완료하였다.
CCTV 영상에서 추출할 위험요소 객체는 건설공사 안전관리 업무수행 지침 및 건설기술관리법 시행령의 위험요소 프로파일(MOLIT, 2014) 및 건설정보 분류체계 기반으로 건설 장비를 1차적으로 선정하였다, 또한, 섭외 현장에 맞추어 토목 현장 중점으로 총 12 객체로 세분화하였다.
택지개발 공사현장 확보를 통해 전경이 보이는 최적 위치에 데이터 수집 장치를 구축하였으며, 영상 수집 장비를 통해 대표적인 8개 화각 영상을 취득하였다.
취득 영상의 라벨링 메타데이터는 보편적으로 객체인식에서 사용되는 형식인 Pascal VOC (Everingham et al., 2010) 형식으로 구성하였다.
구축된 데이터의 범용성을 검증하기 위해 가공 데이터를 대표적인 객체인식 모델인 YOLO v3 (Redmon and Farhadi, 2018) 모델로 실험을 진행하였다. 총 89,766장 데이터를 학습, 검증, 실험용으로 세분화하여 학습을 수행하였고 각 객체에 대한 검출 성능 평가를 진행하였다.
본 연구에서 구축된 데이터셋은 도로 및 택지 개발 등 다양한 분야에 적용 가능할 뿐만 아니라 현장 모니터링 등 표준화된 플랫폼에 확장 적용이 가능하다.
또한, 인공지능 안전관리 시스템에 적용 가능한 공공데이터로 현장 근로자의 안전 관리에 사용되어 공사현장 안전관리 프로세스의 시간 및 비용 절감 그리고
토목 현장의 사고사망률 감소에 기여 가능한 원천 데이터라 예상한다. 본 논문에서는 위험 객체 정의 및 선정 방안에 대해 논하고, 현장으로부터의 영상
데이터 수집 방법 및 절차를 설명하였다. 또한, 구축된 데이터셋의 질적 수준을 정량적으로 제시하고 다양한 용도로 활용될 수 있도록 범용성 있는 AI
학습용 데이터셋의 질적 검증 내용에 대해 언급한다.
2. 토목 현장 영상 자료 수집 및 AI 학습용 데이터셋 구축
2.1 영상자료 수집 토목공사 현장
영상자료 수집 현장은 다양한 객체 취득 여부, 영상 수집 장비 설치 적합성, 다양한 화각의 영상 취득 용이성을 고려하여 인천의 택지개발 현장으로 선정하였다.
다음 Fig. 1은 섭외 현장의 공사 현황도를 나타내며 영상 수집 장비 설치 위치와 취득 데이터의 주요 위치를 나타낸다. 현장의 면적은 약 66만평이며, 공사기간은
2019년 5월 3일부터 2023년 6월 2일까지 총 49개월로 계획되어있다. 영상 수집 장비는 Fig. 1의 좌하단과 같이 공사 현장 전 지역이 취득 가능한 위치에 설치하였으며, 약 20 m 높이의 잔골재 야적장의 상부에 시스템을 구축하였다. 영상 수집
장비에서 보이는 공사현장의 전경은 Fig. 2와 같이 폐색 영역 없이 영상 취득이 가능한 장점이 있다.
Fig. 1. Adopted CCTV System and Construction Site
Fig. 2. Full View of the Construction Site in This Study
2.2 데이터 수집 장치
영상 수집 장치는 Pan, Tilt, Zoom (PTZ), 원거리 영상 취득 성능 및 무선 데이터 전송 기능이 탑재된 KEDACOM의 IPC522
모델이며, 전체적인 사양은 Table 1과 같다.
Table 1. CCTV Camera Specification
Category
|
Specification
|
Manufacturer
|
KEDACOM
|
Image Sensor
|
1/2.8’’ CMOS
|
Pixels
|
2.0 Megapixel
|
Focal Length
|
4.5 ~ 135 mm, 30x optical
|
Max. Aperture Ratio
|
F1.6 (WIDE) / F4.4 (TELE)
|
Pan / Tilt Range
|
360° / -15° ~ 90°
|
Compression
|
H.265 / H.264
|
Bitrate
|
64 kbps ~ 16 Mbps
|
Wireless
|
3 G / 4 G / Bluetooth / Wifi
|
2.3 데이터 수집 장비 운영 프로세스
대상 현장 내에서 지형적인 특성과 보이는 건설장비 현황을 고려하여 8개(P1-P8) 국부 지역을 대상으로 선정(Fig. 1의 ‘x’ 표식으로 표시된 지역) 하였으며, 선정된 국부 지역들을 일정 시간 간격으로 8개 화각을 연속하여 촬영하고 설치된 영상 수집 장치에 저장하였다.
각 화각에서 촬영된 선정 국부 지역의 모습은 Fig. 3과 같다. 선정된 화각은 택지개발공사 현장 내에서 주요한 대상 객체들이 실시간으로 운용되고 있는 공사 중인 지역이다.
Fig. 3. Image Samples in Set-Up Viewpoints
3. 인공지능 표준 데이터셋 가공
3.1 토목현장 위험요소 객체 선정
건설현장의 정지영상을 이용하여 추출할 위험요소 객체들은 건설공사 안전관리 업무수행 지침 및 건설기계관리법 시행령(MGL, 2022)의 위험요소 프로파일 및 건설정보 분류체계를 고려하여 선정하였다. 위험요소 프로파일은 건설현장의 공사목적물, 주변 건축물, 가설구조물 등의 안전과
작업자의 안전을 저해하는 발생 가능한 위험요소를 발굴하여 공종별 위험요소(Hazard)로 분류한 기본 표준자료이다. 본 연구에서는 위험요소 프로파일에서
명시하고 있는 객체 요소와 건설기계 관리법에 등록되어 있는 건설 장비 현황을 참조하였다(MOLIT, 2014). 토목 공사현장 중심의 위험요소를 공종별, 객체종류로 분류하여 다음 Table 2의 최종 검출 객체처럼 총 12개의 건설 장비로 세분화하였다. 건설 기계 중 굴삭기와 백호를 굴삭기로, 천공기와 어스오거를 천공기로 타워크레인과 이동식크레인을
크레인으로 그룹화 하였다. 또한, 토공사에서 주요한 건설 장비인 로더, 불도저, 롤러에 대한 객체 정의가 위험요소 프로파일 보고서에 포함되어있지 않아
자체적으로 검토하여 객체를 반영하였다.
Fig. 4는 Table 2에서 명시한 최종 대상 객체 리스트를 라벨링한 결과로 전체 영상에서 객체 부분만 추출하여 도식화하였다.
Fig. 4. Labeling Samples for Target Object Types
Table 2. Classification of Target Objects (MOLIT, 2014)
Type of works
|
Object type
|
Target objects
|
Grouped target objects
|
Earth work
|
Construction equipments
|
Excavator
|
Excavator
|
Backhoe
|
Dump truck
|
Dump truck
|
|
Loader
|
Bulldozer
|
Roller
|
Ground improvement and Reinforcement
|
Crawler drill
|
Crawler drill
|
Piling
|
Earth auger
|
Pile driver
|
Pile driver
|
Placing of reinforced concrete
|
Pump car
|
Pump car
|
Mixer truck
|
Mixer truck
|
Forklift truck
|
Forklift truck
|
Construction of steel structure
|
Tower crane
|
Crane
|
Civil plumbing and dainage
|
Mobile crane
|
Etc
|
Car
|
Car
|
3.2 토목 공사현장 AI 학습용 객체인식 데이터
AI 학습용 데이터셋은 원본 이미지 영상과 이에 대응하는 라벨링 정보로 구성되어 있다. 각 이미지 데이터는 고유의 파일명을 갖고 있으며, 다음 Eq.
(1)과 같이 영상수집 장비 모델 정보, 취득 날짜 및 시간, 대상 화각의 위치, 촬영 시각 날짜의 기상 정보, 프레임 번호 순서대로 구성되어 있다. 취득
기상 정보는 기상청(KMA, 2021)에서 제공하는 정보를 통해 해당 날씨의 운량, 강수량 수치를 기반으로 맑음(Sunny), 흐림(Foggy), 우천(Rainy)로 정보화하였다. 운량이
5 이상인 경우 흐림, 5 미만인 경우 맑음, 강수량이 있는 경우를 우천으로 그룹화 하였다.
경계상자 라벨링을 위해 LabelIme (Wada, 2018) 오픈소스 라벨링 툴을 사용하였으며, 메타데이터는 딥러닝 기반 객체인식 분야에서 공통적으로 사용하는 Pascal VOC (Everingham et al., 2010) 형식으로 저장하였다. 다음 Fig. 5는 메타데이터의 예시이며, 메타데이터 파일명은 연결되는 이미지의 파일명과 동일하도록 구성하였다. Pascal VOC 형식의 경계상자 메타데이터에는
이미지의 파일명(filename), 너비(width), 높이(height), 이미지 내 각 객체의 클래스 명(name), 경계상자 좌표(xmin,
ymin, xmax, ymax) 정보를 포함하고 있다.
Fig. 5. Annotation ‘json’ File Information
4. 딥러닝 학습을 통한 데이터셋 검증
4.1 토목 공사현장 인공지능 학습용 데이터셋
본 논문에서는 토목 공사현장을 대상으로 취득한 영상 기반으로 총 89,766장의 이미지 데이터 가공을 수행하였다. 다음 Table 3은 대표 화각 8개 영역에 따른 이미지 현황을 나타낸다. 건설 장비가 활발하게 운영되고 있는 영상을 추출하였기 때문에 일부 대상 화각(V1-V4)에
이미지 추출 개수가 상대적으로 편중되는 현황이 보인다.
Fig. 6은 전체 데이터셋에서 대상 객체들의 구성 현황을 내림차순으로 도시하였다. 데이터 취득 시점에서 현장의 주요 공종은 토공 및 절토공사가 주를 이루고
있어 공종에 특화된 건설 장비가 대다수로 포함된다. 일반 차량을 제외하고 굴삭기, 덤프트럭, 불도저 순서대로 객체의 포함 비율이 높게 포함되어 있다.
또한, 학습용, 검증용, 실험용 데이터를 Fig. 6의 현황과 같이 분류하여 데이터를 구성하였다.
Fig. 6과 같이 일부 객체는 취득 표본수가 적어 학습용, 검증용, 실험용 데이터에 각각 포함될 수 있도록 데이터를 구분하여 구성하였다. 학습용 데이터는 62,836장,
검증용 데이터는 10,711장, 실험용 데이터는 16,219장으로 구성된다.
Fig. 6. Number for Each Target Object
Table 3. Labeled Data Image Status
|
View
|
|
V1
|
V2
|
V3
|
V4
|
V5
|
V6
|
V7
|
V8
|
Number of image
|
10,305
|
5,262
|
15,161
|
50,629
|
262
|
1,955
|
517
|
5,675
|
Total number
|
89,766
|
4.2 딥러닝 학습 모델
4.2.1 YOLO (You Only Look Once) 모델
객체 인식 분야에서는 크게 2가지의 딥러닝 학습 알고리즘 계열이 존재한다. Region-based Convolution Neural Networks
(Girshick et al., 2015), Fast R-CNN (Girshick, 2015), Faster R-CNN (Ren et al., 2015)와 같은 double stage 학습 알고리즘 계열은 영상 자료의 배경을 학습하여 속도보다 정확도에 초점을 맞춘 알고리즘 계열이다. 이에 반해 single
stage 학습 알고리즘 계열은 YOLO (You Only Look Once) 계열로 Region Proposal 방식을 생략하고 배경을 학습에 사용하지
않고 이미지상의 경계박스로 규정된 객체 영역만을 학습에 사용되므로 정확도보다는 학습 속도에 중점을 둔 학습 알고리즘 계열이다. 본 논문은 빠른 프레임
처리속도와 정확성을 확보한 YOLO 계열 모델을 채택하여 학습 데이터의 검증 작업을 수행하였다.
상기 Fig. 7은 YOLO의 모델 구조를 도식화하였다. YOLO는 합성곱 신경망(Convolution Layer) 층으로 구성되며, 추가로 맥스 풀링(Max Pooling)과
완전 연결 층(Fully Connected Layer)이 존재한다. 입력 데이터를 합성곱 신경망 층과 맥스 풀링을 순차적으로 통과시켜 입력 영상의
특징 맵(Feature Map)을 추출한다(Redmon and Farhadi, 2017). 두 작업을 반복적으로 수행하면서 입력 영상의 특성을 유지한 상태로 크기를 줄여나가며, 최종적으로 Fully Connected Layer를 통해
입력 영상을 최종 출력 구조인 $7\times 7\times 30$ 크기의 텐서 형태로 정량화한다. 최종 값을 이용하여 입력 영상 내 객체의 위치와
클래스 정보를 예측하게 된다. 이전 버전과 달리 YOLO V3은 일반적으로 사용하는 ResNet과 같은 Backbone 네트워크를 사용하지 않고 Darknet-53을
도입하여 실시간성을 높였다. 또한 prediction feature map으로 3개의 축척단계(Scale)을 적용하여 작은 객체를 인식하지 못하는
단점을 보완하였다.
Fig. 7. YOLO v3 Model Architecture
4.2.2 딥러닝 모델 학습 조건 및 환경
객체 인식 모델을 학습하기 위해서는 최적의 학습 하이퍼 파라미터를 설정해야 효과적인 모델 생성이 가능하다. 따라서 본 논문에서는 일련의 사전검토 연구를
통해 영상 크기는 640 x 640, Batch Size는 16, Epoch는 160으로 설정하고 학습을 수행하였다. 실험에 사용된 학습 환경은 Ubuntu
18.04에서 Python 3.8 버전으로 YOLO를 실행하였으며, Tensorflow 1.13.1 버전의 딥러닝 프레임워크를 이용한다. 하드웨어의
경우 CPU는 6코어 6스레드인 INTEL i5-8500, RAM 용량은 32 GB, GPU는 NVIDIA GTX 2080 Supter로 실험을 수행하였으며,
딥러닝 코드의 구조상 CPU 및 RAM을 활용하므로 객체 인식 모델 및 계산 용량에 맞추어 CPU 및 RAM을 설정하였다.
4.3 딥러닝 학습을 통한 데이터셋 표준성 검토
4.3.1 딥러닝 모델 수치 성능평가
객체 인식 모델의 성능평가를 위해 대표적인 평가지표인 mAP (Mean Average Precision)를 활용하였다. mAP란 정밀도(Precision)와
재현율(Recall) 지표가 사용되며 다음 Eqs. (2) and (3)로 표현된다. 정밀도는 모델이 사실이라고 분류한 것 중에서 실제로 사실인 경우의 비율을 나타내며, 재현율은 실제 사실인 것 중에서 모델이 사실이라고
예측한 비율로 설명된다. 최종적으로 정밀도를 Y축에 재현율을 X축으로 값을 놓고 PR-곡선을 생성하여 면적을 통해 AP 값을 구한다(Powers, 2010).
다음 Table 4는 모든 객체에 대한 mAP 평가 결과를 보여준다. IoU (Intersection over Union) 기준으로 평가를 진행하였으며, IoU는 실제
예측한 경계상자와 정답이 겹치는 비율을 의미한다. 이에 따라, 50 %와 75 %로 기준점을 설정하고 실험을 진행하였다. 50 %인 경우는 92.6이며
75 %인 경우 86.05로 기준점이 높아 검출 정확도는 상대적으로 감소하였다. 추가로 객체의 크기 별로 평가를 진행하였다. 객체의 크기별로 $AP_{Small}$,
$AP_{Medium}$, $AP_{L\arg e}$로 구분하여 평가지표를 산정하였으며 다음과 같이 면적에 따라 구분된다. (a) $AP_{Small}$
(면적 < $32^{2}$픽셀), (b) $AP_{Medium}$ ($32^{2}$픽셀 < 면적 < $96^{2}$픽셀, (c) $AP_{L\arg
e}$ (면적 < $96^{2}$픽셀). 평가 결과, 큰 객체일수록 정확도가 높은 경향을 보여준다.
다음 Table 5는 대상 객체 별로 mAP 값을 구한 결과를 보여준다. 자동차 객체와 펌프카 객체를 제외하고 90 이상의 AP값을 얻었다. 자동차 객체의 경우 겹침
현상으로 미탐지 데이터가 다수 포함되어 상대적으로 낮은 AP값을 얻었으며 펌프카의 경우 표본 수가 10장으로 매우 적어 낮은 결과 값을 보였다.
다음 Fig. 8은 오탐지 및 미탐지로 인한 정확도 감소여부를 확인하기 위해 4가지 종류로 도시하였다. Fig. 8의 (a) 오탐지 예로 대상 객체를 잘못 인식한 경우 (b) 부정확한 경계상자 예시로 대상 객체의 크기보다 작게 검출한 경우 (c) 동일한 객체를
두 번 검출한 경우 (d) 미탐지 예로 대상 객체를 인식하지 못한 경우로 이러한 결과가 mAP를 감소시킨 원인으로 판단된다. 다음과 같은 현상은 데이터
추가 반영 및 학습 시간 보충으로 전체적으로 해결될 것이라 판단된다. 추가로 객체 인식 분야에서 대표적인 한계점인 겹침 현상은 객체 크기에 따라 검출하는데
주요한 영향 인자인 앵커 박스(Anchor box)와 앵커 스케일(Anchor scale) 파라미터의 최적화로 보완될 것이라 판단된다.
Fig. 8. Causes of Decrease in Object Detection Accuracy
Table 4. Bounding Box mAP for Object Detection
Model
|
mAP (0.5)
|
mAP (0.75)
|
AP (S)
|
AP (M)
|
AP (L)
|
YOLO v3
|
92.60
|
86.05
|
57.47
|
77.49
|
92.67
|
Table 5. mAP from Target Object Detection
excavator
|
dump_truck
|
loader
|
bull_dozer
|
roller
|
crawler_drill
|
91.19
|
92.09
|
95.3
|
93.74
|
100.0
|
94.88
|
pile_driver
|
pump_car
|
mixer truck
|
forklift truck
|
crane
|
car
|
95.17
|
50.0
|
100.0
|
94.79
|
94.58
|
86.28
|
4.3.2 딥러닝 모델 시각 성능평가
다음 Fig. 9는 대상 객체들이 포함된 추론 결과를 도시하였다. 전체적으로 90 %에 근접한 mAP 정확도에 맞게 대부분의 건설장비 객체의 검출 대응력을 확인하였다.
Fig. 9. Visual Inference Results according to the Target Object
5. 결 론
본 연구에서는 건설 현장의 안전 시스템 구축을 위한 기초 학습 자료를 생산하고 딥러닝 학습 데이터 구조에 맞게 가공해 관련 분야에 종사하는 연구자가
활용 가능한 데이터를 구축하였다, 또한, 최종 데이터셋은 행정안전부 공공데이터포털에서 이용 가능하도록 데이터를 공개(KICT, 2021)하였다. 데이터 구축을 위해 실제 토목 현장에 CCTV 카메라 네트워크를 구축하고 건설장비에 대해 89,677장의 객체인식 데이터셋 인공지능 표준에
맞추어 구성을 완료하였으며, 가공 데이터의 범용성을 검증하기 위해 객체인식 분야에서 대표적인 모델인 YOLO를 통해 데이터 검수를 진행하였다. 평가
결과, mAP 결과는 92.6로 데이터 라벨링 정보의 신뢰도를 확인하였다.
향후 연구에서는 추가 현장을 확보하고 편중된 데이터를 보완하기 위해 상대적으로 부족한 객체를 추가 확보할 계획이다. 또한, 토목 현장만이 아닌 건축
현장까지 확대하여 건설 안전과 관련된 대상 객체 범위를 확대할 계획이다. 이러한 데이터는 향후 건설안전 분야 뿐만 아니라 다양한 토목현장 대상 AI
솔루션 개발을 위한 객체 인식 AI 모델 구축용 기반 데이터로 활용 가능할 것으로 판단된다.
감사의 글
본 논문은 한국건설기술연구원 주요사업으로 지원을 받아 수행된 연구(버츄얼 컨테이너 기반 독립적 소규모 건설현장 안전관리 플랫폼 구축)로 이에
감사드립니다.
References
Everingham, M., Van Gool, L., Williams, C. K., Winn, J. and Zisserman, A. (2010).
“The pascal visual object classes (VOC) challenge.” International Journal of Computer
Vision, Vol. 88, No. 2, pp. 303-338.
Girshick, R. (2015). “Fast r-cnn.” In Proceedings of the IEEE International Conference
on Computer Vision, Santiago, Chile, pp. 1440-1448.
Girshick, R., Donahue, J., Darrell, T. and Malik, J. (2015). “Region- based convolutional
networks for accurate object detection and segmentation.” IEEE Transactions on Pattern
Analysis and Machine Intelligence, Vol. 38, No. 1, pp. 142-158.
Korea Institute of Civil Engineering and Bulding Technology (KICT) (2021). Public
data portal site, Available at: https://www.data.go.kr/data/15095287/fileData.do (Accessed:
November 22, 2022).
Korea Meteorological Administration (KMA) (2021). Weather information, Available
at: https://www.kma.go.kr/eng/index.jsp (Accessed: December 28, 2021).
Ministry of Employment and Labor (MOEL) (2020). Industrial accident status (in Korean).
Ministry of Government Legislation (MGL) (2022). Construction machinery management
act (in Korean).
Ministry of Land, Infrastructure and Transport (MOLIT) (2014). Development of risk
factor for construction project, MOLIT Research Report (in Korean)
Powers, D. M. (2010). “Evaluation: From precision, recall and F-measure to ROC, informedness,
markedness and correlation.” arXiv preprint, arXiv:2010.16061.
Redmon, J. and Farhadi, A. (2017). “YOLO9000: Better, faster, stronger.” In Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA,
pp. 7263-7271.
Redmon, J. and Farhadi, A. (2018). “Yolov3: An incremental improvement.” In Computer
Vision and Pattern Recognition, Vol. 1804, pp. 1-6.
Ren, S., He, K., Girshick, R. and Sun, J. (2015). “Faster R-CNN: towards real-time
object detection withregion proposal networks.” Proceedings of the Advances in Neural
Information Processing Systems, pp. 91-99.
Seoul Metropolitan Government (2021). 10 Safety measures for small and medium-sized
construction sites in Seoul, Seoul Metropolitan Government, Local Construction Safety
Center (in Korean).
Wada, K. (2018). Labelme, Github repository, Available at: https://github.com/wkentaro/labelme
(Accessed: November 27, 2022).
Xiao, B. and Kang, S. C. (2021). “Development of an image data set of construction
machines for deep learning object detection.” Journal of Computing in Civil Engineering,
Vol. 35, No. 2.