Mobile QR Code QR CODE : Journal of the Korean Society of Civil Engineers

  1. 종신회원 ․ 교신저자 ․ 한국건설기술연구원 구조연구본부 전임연구원 (Corresponding Author ․ Member ․ Korea Institute of Civil and Building Technology, Dept. of Structural Engineering Research ․ jeongsookim@kict.re.kr)



문자 임베딩, 합성곱 신경망, 양방향 장단기기억 신경망, 입찰, BIM 요구사항
Character embedding, Convolutional neural network, Bi-directional long-short term memory neural network, Bid, BIM requirement

1. 서 론

공공 건설사업의 BIM 적용 의무화가 확대됨에 따라 민간기업의 BIM 수행 역량이 요구되고 있다(Kim et al., 2021; Ministry of Land, Infrastructure and Transport, 2023). 사업 입찰에 요구되는 BIM 수행 역량은 BIM과 관련된 수행실적, 인력 등 정량적 항목과 발주처 요구사항에 대한 BIM 수행계획 수립과 같은 정성적 항목으로 구분할 수 있다. 특히 후자는 입찰문서에 존재하는 명시적, 내재적 BIM 요구사항을 파악이 필요하다. 또한 BIM 요구사항에 따른 세부 업무수행을 위해 필요한 인력 및 투입기간 등 참여기업의 전사적인 BIM 역량에 대한 판단이 요구되며(Moon et al., 2018; Shin et al., 2023), 이를 통해 실행 가능하고 합리적인 BIM 수행계획 수립이 가능하다. 따라서 BIM 실무뿐만 아니라 유관 사업 경험 그리고 BIM 사업 전반에 대한 이해를 갖는 전문인력의 참여가 필요하다.

그러나 자체적인 BIM 활용 경험이 축적된 기관과 기업은 제한적이다. 영세한 기업일수록 BIM 전담팀 및 인력 부족으로 BIM 전문기업을 통해 대부분의 BIM 업무를 수행하므로 경제적 이득이 작고 자체 경험 축적도 어렵다(Kim et al., 2023; Shin et al., 2023). 또한 BIM 사업 전반에 대한 이해도가 낮아 사업 수주에도 불리해(Choi, 2024), BIM 전문인력 부족에 따른 어려움을 해소하기 위한 지원 도구가 필요하다.

다양한 전문 분야에 대한 지원 도구의 핵심 기술로써 최근 인공지능 기반의 자연어 처리(Natural Language Process, NLP) 기술이 주목받고 있으며, 해당 기술을 활용해 방대한 계약 및 입찰 관련 문서를 정확하고 효율적으로 분석하고자 하는 연구들이 이뤄지고 있다. 그중 NLP를 활용한 건설분야 입찰문서 분석 연구 다수는 방대한 입찰문서 검토 중에 발생할 수 있는 인적오류 및 실무자의 경험 부족을 최소화하기 위해 항목분류, 개체명 인식(Name Entity Recognition, NER) 기법을 활용하고 있다. 먼저 Lee et al.(2019)은 플랜트 입찰안내서 기계공종과 일반계약 사항에 대해 전문가 시스템 형태의 인공지능 모델을 사용해 입찰안내서 분석 시간 단축 및 요구사항 간 불일치 등을 효과적으로 분석할 수 있음을 보이고자 하였다. Choi et al.(2021)은 해외 플랜트, 도로 사업의 입찰안내서와 계약문서 내 위험조항을 자동으로 분석하기 위한 모델을 제안하였다. 해당 모델은 spaCy 라이브러리를 사용한 규칙 기반의 위험조항 색인 모듈과 시 NER 기반 시각화 모듈로 구성되며, 후자는 입찰 및 계약문장과 해당 문장 내 위험조항 문구 위치와 개체명(위험조항 항목)으로 구성된 데이터셋을 통해 학습된다. Moon et al.(2021)은 입찰단계에서 건설시방서의 면밀한 검토를 통한 프로젝트 위험관리 중요성을 강조하고 방대한 건설시방서 조항에 대한 세부사항 검토의 어려움을 극복하기 위해 Bidirectional Long and Short-Term Memory(Bi-LSTM) 구조를 사용한 NER 모델을 제시하였다. 해당 모델을 통해 건설시방서에 포함된 요구사항, 참고 기준서 등의 정보를 효과적으로 추출할 수 있음을 보였다. 또한 Moon et al.(2022)는 BERT의 다중 분류 모델을 사용해 해외 건설시방서 내에 잠재적인 분쟁 요소로 작용할 수 있는 항목을 기성 청구, 안전 등 7개로 구분할 수 있는 모델을 개발해 위험인자를 효과적으로 검출하고자 하였다. Choi and Lee(2022)는 해외 플랜트 사업의 입찰문서 내 위험조항 여부를 판별하고 이를 5개 등급으로 위험 수준을 분류하는 기계학습 모델을 제안하였다. 위험조항 판별 및 위험등급 분류를 각각 수행할 수 있도록 Bi-LSTM 모델을 각각 순차적으로 사용하였다. Kim et al.(2023)은 국내 BIM 건설사업의 입찰 텍스트에 가운데 실무적 난이도가 높은 BIM 요구사항을 검출하는 딥러닝 분류 모델을 제시하였다. 건설 용어를 추가한 딥러닝 기반 형태소 분석기 Khaiii와 Bi-LSTM 구조를 적용한 분류 모델을 통해 BIM 실무 수행과정에서 기술적 요구수준이 높거나 작업량이 많아 부담되는 BIM 요구사항을 추출할 수 있음을 보였다.

선행연구 조사를 통해 건설분야 입찰문서 분석을 위한 기존 NLP 활용 연구들은 대부분 해외 플랜트 사업의 영어 문서를 중심으로 이뤄지고 있고, 한글로 작성된 건설분야 문서에 대한 NLP 적용은 초기 단계임을 알 수 있다. 해외 입찰 사업을 중심으로 NLP 적용 연구가 이뤄진 원인은 여러 가지이나 한글 입찰문서 분석에 대한 연구가 상대적으로 미진한 이유 중 하나는 한글 전처리의 어려움이다. 특히 기존 단어 임베딩을 사용한 한글 분석 모델이 영문 분석 모델 대비 어려운 점은 전처리 과정, 특히 띄어쓰기로 인해 발생한다. 입찰문서와 같이 정형화되고 글쓰기 규칙에 따라 잘 작성된 양질의 텍스트에서도 같은 문제는 존재하며, 이는 한글 문서의 다음과 같은 특성에 기인한다. 첫째로 한글은 영문자에 비해 띄어쓰기 지켜지지 않아도 상대적으로 이해에 어려움이 적다. 둘째로 입찰문서는 여러 전문용어가 합성된 것들이 많다. 국립국어원의 한국어 어문 규범 5장 4절 49항에 따르면 전문용어 또한 단어별로 띄어쓰기가 원칙이나 의미를 쉽게 파악하기 위해 붙여 쓰는 것 또한 허용되므로 작성자에 따라 여러 표기가 가능하다. 셋째로 해외에서 유입된 전문용어의 경우 원문을 그대로 표기하거나 발음대로 한글로 표기할 수 있어 동일한 대상에 대해 다양한 표기가 가능하다. 또한 원문에 상응하는 한글 단어로 표기할 수 있으며, 띄어쓰기를 포함한 합성어 원문이라면 축약어를 비롯한 더 다양한 경우의 수가 존재한다. 위와 같은 한글 문서의 특성은 계약 및 전문 기술 용어를 포함하는 BIM 입찰문서의 표현 다양성을 높이게 되므로, 부적절한 단어 구분, 미등록 단어 문제 등 전처리 결과에 영향을 주며 특히 단어 임베딩 기반 기계학습 및 딥러닝 모델의 추론 성능에 악영향을 미칠 수 있다.

반면 문자 임베딩의 경우 단어 임베딩 기반 모델 대비 모델의 복잡성은 증가할 수 있으나 사전의 규모가 작아 메모리 운영에 장점이 있다. 또한 개별 문자에 초점을 맞추기 때문에 희귀 단어 및 미등록 단어 처리에 유리하고 철자 오류에 강건성을 가진다. 단어 임베딩은 형태소 분석으로부터 얻은 단어 배열 인코딩한 이후에 얻어지므로, 미등록 단어 및 오탈자가 포함되면 형태소 분석 과정에서 누락되거나 상이한 단어 조합으로 인식할 수 있어 모델 성능에 영향을 미치는 핵심 용어가 단어 임베딩에 포함되지 않을 수 있다. 띄어쓰기 방식도 미등록 단어나 잘못된 형태소 분석 결과를 야기할 수 있어 모델 성능에 영향을 준다. 반면 문자 임베딩을 사용한 경우 문자 단위로 전달되기 때문에, 띄어쓰기로 인한 표기 차이 및 오탈자 가능성까지도 반영해 모델이 학습되고, 미등록 단어 문제도 발생하지 않는다. 추가로 한국어, 핀란드어 등과 같이 형태소가 중요한 역할을 하는 언어에 대한 단어 임베딩 결과는 형태소 분석기 성능에 따라 토큰 배열 및 모델 성능이 달라지는 반면(Ahn et al., 2017), 문자 임베딩을 사용하면 형태소 분석기에 제한을 받지 않는다. 이러한 이유로 여러 문자 임베딩 관련 연구는 문자 및 음소 단위 임베딩을 활용해 구약성경 텍스트 생성(Ahn et al., 2017), 복합 명사 분해(Lee and Kang, 2019), 영화 리뷰(Cho et al, 2019; Kim et al., 2020; Sung et al., 2020) 및 드라마 대본(Cho et al., 2021)의 감정 분석 등을 수행한 바 있다.

국내 건설사업 입찰 텍스트의 띄어쓰기 상태가 문서마다 상이하고 전문용어 및 복합 명사가 많은 점을 고려할 때, 문자 임베딩 활용 시 딥러닝 및 기계학습 등의 모델을 활용한 입찰문서 분석 결과의 정확성 개선을 기대할 수 있다. 본 연구는 Fig. 1에 나타낸 절차에 따라 국내 BIM 발주사업의 BIM 요구사항의 실무적 난이도를 판별하기 위한 문자 임베딩 기반 분류 모델을 제시한다. 해당 모델의 학습을 위해 Kim et al.(2023)이 구축한 BIM 요구사항 및 일반계약 내용을 포함한 문장 데이터셋을 사용하였으며, 문자 임베딩에 대한 주요 매개변수 변화에 따른 모델의 평가지표 변화를 분석하였다. 또한 문자 임베딩 사용에 따른 효과를 분석하기 위해 기존 단어 임베딩 사용 모델과의 추론 결과를 비교하였다.

Fig. 1. Research Flow
../../Resources/KSCE/Ksce.2024.44.6.0843/fig1.png

2. 문자 임베딩 기반 BIM 입찰 요구사항 난이도 분류 모델

2.1 데이터셋

본 연구는 문자 임베딩 기반의 BIM 입찰 요구사항 분류 모델을 생성하기 위해 Kim et al.(2023)이 구축한 BIM 요구사항 난이도 데이터셋을 사용하였다. Kim et al.(2023)은 다수 국내 건설사업의 입찰안내서, 제안요청서, BIM 수행계획서 등 입찰문서를 수집하고 이로부터 BIM 요구사항 및 일반 입찰사항 관련된 800개 문장을 선별해 BIM 실무자를 대상으로 설문조사를 수행하였다. 각 입찰 문장마다 포함된 BIM 요구사항을 10명의 실무 전문가가 검토하고 해당 요구사항에 따른 BIM 관련 수행 업무에 대한 부담 수준, 소요 투입 자원 등의 난이도를 실무경험에 근거해 정량 점수를 부여하도록 하였다. 문장별로 정량 점수에 대한 평균 점수를 산출하고, 기준 점수보다 평균 점수가 높으면 BIM 요구사항에 대한 실제 업무 수행 난이도가 높다고 간주해 BIM 요구사항에 대한 난이도 데이터를 구축하였다(Table 1). 또한 적은 분량의 난이도 데이터를 보완하고, 난이도의 높음/낮음 데이터 비율이 1:1에 근사하도록 BIM 요구사항과 무관한 800개의 입찰 문장을 추가하여 전체 1,600개 문장으로 구성된 데이터셋을 확보하였다. 여기서 추가된 일반 입찰 문장은 BIM 요구사항 난이도가 낮다고 고려된다.

학습, 검증, 시험 목적으로 데이터를 각각 1,120, 320, 160 문장으로 구분하였다. 또한 단어 임베딩 대비 문자 임베딩의 장점을 확인할 수 있도록 입찰 문장에 대한 문장 부호 및 기호에 대한 정제 처리는 수행하지 않았으며, 표현 방법이 다른 용어 및 영문자 대소문자를 통합해 표기하는 정규화 처리도 수행하지 않았다.

Table 1. Sample Sentences and Labels of Dataset

No

Sentences

Labels

1

As-Built Model에는 발주자가 유지보수 및 운영에 활용할 수 있도록 시설물 및 장비에 대한 각종 정보들이 상세히 입력되어 있어야 한다

HIGH

2

최종 교량 구조물의 BIM 데이터 작성은 설계도면과 설계수량 산출이 가능하도록 하여야 한다

HIGH

3

속성 정보의 존재 속성 정보의 표현 형식 및 내용의 정확성 등 정보품질이 확보되어야 한다

HIGH

4

복수의 노선을 LOD 200∼LOD 300 수준으로 BIM 데이터를 통해 장·단점 및 경제성 등을고려하여 최적노선을 결정한다

HIGH

5

제안과업은 BIM데이터와 비용일정통합 관리 시스템을 구축(공정시뮬레이션4D원가관리 5D)해야 한다.

HIGH

6

철골부재의 내화피복 두께 50 mm미만은 표현하지 않는다

LOW

7

설계도면에는 구조물 축조 및 준설, 지반처리공법, 구조체(가설구조물, 적출장, 가설도로, 적치장 등)의 재료, 규격, 설계 및 소요강도, 기타 재료에 관한 사항이 표기되어야 하며, 도면이해를 위한 주기 및 타 도면과의 관련여부를 나타내는 관련 도면번호가 명기되어야 한다.

LOW

8

계약상대자는 시공 BIM 관련 업무가 원활히 진행될 수 있도록 전문인력, 하드웨어, 소프트웨어, 공간, 장비, 그리고 협력업체에 의해서 사용되는 BIM 업무지원 장비를 포함하여 BIM 업무수행을 원활히 지원할 수 있도록 BIM 업무환경을 구축해야 한다.

LOW

9

포장패턴은 단지 전체에 일관성을 부여할 수 있도록 하며 단지 전체 평면도상에 그 패턴 및 포장컬러 계획을 포함하여 계획하여야 한다.

LOW

10

작성된 BIM 모델을 검토할 수 있도록 필요한 BIM S/W와 모바일 기기를 발주자에게 제공 하고 LH 및 설계사에게 기본교육을 제공하여야 한다.

LOW

2.2 문자 임베딩

본 연구의 문자 임베딩은 음절을 기본 단위로 하며 공백, 문장 부호 및 기호 모두 임베딩 대상에 포함한다. 입력 텍스트에 대한 정제, 정규화 등에 대한 별도의 처리를 수행하지 않고 문장 단위 텍스트로부터 음절 단위로 인코딩(Integer encoding)을 수행하였다. 2.1절에 설명한 입찰 문장을 대상으로 709개 음절 단위 문자 목록 사전을 생성하였고, 이를 이용해 각 문장에 대한 정수 배열이 생성되도록 하였다. 이때 인코딩된 문장은 딥러닝 모델의 입력 데이터로 활용되도록 ‘PAD’ 토큰을 추가해 동일한 길이가 되도록 하였다.

문자 임베딩은 깊은 신경망 모델의 연산을 위해 입력된 문자 배열의 각 문자를 벡터 데이터로 표현하는 방법을 의미하며, 희소 특징 벡터(Sparse/Coarse feature vector) 또는 분산 특징 벡터(Dense/Distributed feature vector)를 사용해 문자 조합을 나타낼 수 있다. 본 연구는 임베딩 벡터가 입력 문장을 구성하는 단어와 이를 구성하는 문자 간 분포 관계를 함축할 수 있도록 분산형 특징 벡터를 문자 임베딩으로 사용하였으며, Table 2와 같이 서로 다른 문자 임베딩 방법을 고안하였다.

Table 2에서 Model A의 문자 임베딩 모듈은 문자에 대한 정수 배열 조합으로 나타낸 입력 문장을 특징 벡터로 변환하기 위해 Tensorflow의 Embedding과 Flatten 층을 사용한다. Embedding 층은 Word2Vec과 달리 모델의 학습 과정에서 가중치 행렬을 갱신함으로써 문자별로 입력 텍스트 및 전체 모델의 예측 결과를 반영한 특징 벡터를 생성한다. Flatten 층은 Embedding 층에서 얻어진 문자별 특징 벡터를 연결해, 분류 모듈에 전달하기 위한 문자 조합을 나타내는 1차원 특징 벡터로 변환한다. 여기서 Embedding 층은 문장 전체에 대한 문자 조합을 수치적으로 표현하나, 문자와 문자 간 동시 출현에 대한 통계적 정보만 반영해 문맥 정보를 담기에 한계가 있다.

문자 임베딩 결과가 문맥 정보를 포함하기 위해서는 문자의 출현 순서 정보를 포함하거나, 텍스트의 유의미성을 갖도록 단어 수준으로 문자 정보를 함축하는 것이 유리할 것으로 기대된다. 이러한 이유로 Model B와 같이 순환 신경망 중 하나인 Bi-LSTM 신경망을 Embedding 층과 함께 사용함으로써 입력 문장의 문자 조합뿐만 아니라 순서 정보까지 함께 포함하도록 하였다. 또한 Model C와 같이 Embedding과 함께 1차원 합성곱 신경망(Conv1D) 및 Max pooling 층을 결합해 전체 문자 배열에 대한 정보뿐만 아니라 단어 및 구절 단위로 특징 벡터에 입력 문장의 정보를 함축할 수 있도록 하였다.

Table 2. Embedding Modules in the Proposed Classifier Models for BIM Requirement

Model

Layer composition of character embedding module

Embedding

Flatten

Convolution

Bi-LSTM

A

-

-

B

-

-

C

-

-

2.3 분류 모델

BIM 요구사항에 대한 난이도 분류 모델은 Fig. 2에 나타낸 바와 같이 문자 임베딩 모듈과 난이도 판별 모듈로 구분된다. 모델로 입력되는 데이터는 입찰 문장과 해당 문장에 대한 이진화된 BIM 요구사항 난이도 정보이며, 여기서 입찰 문장은 별도의 전처리 과정을 수반하지 않는다. 입찰문장은 음절 단위로 구분된 후 개별 음절에 해당하는 정수 인덱스 배열로 변환해 A, B, C 중 하나의 문자 임베딩 모듈을 통해 분산 방식의 특징 벡터로 표현된다. 특징 벡터는 분류 모듈로 전달되며, 해당 모듈은 모델에 의한 BIM 요구사항에 대한 난이도를 높음과 낮음으로 이진 분류하므로 Sigmoid 활성화 함수를 갖는 완전 결합(Fully connected: FC) 층으로 분류 모듈을 구성하였다. 모델의 학습 수준을 평가하기 위한 손실함수는 Binary cross-entropy를 사용하였으며, 모델의 훈련 변수의 갱신에 사용되는 최적화 함수는 Adam을 사용하였다. 모델의 최대 학습 횟수(Epoch)는 100으로 설정하였으나, Keras의 EarlyStopping 기능을 사용해 검증데이터에 대한 손실함수 값 개선이 이뤄지지 않으면 학습을 조기 종료하도록 하였다. Fig. 2의 전체 모델의 구현 및 학습을 위해 Tensorflow 2.7.13을 사용하였다.

입찰 문장 데이터셋의 정수 배열 길이를 검토하여 Embedding 층에 입력되는 배열의 길이를 420으로 설정하였고, 이외 모델 학습 및 문자 임베딩 모듈과 관련된 주요 매개변수는 Table 2에 나열된 값을 조합하여 학습을 진행하였다. 모델의 학습 결과는 학습 변수의 초깃값 및 GPU 가속기 사용 등에 영향을 받는다. 본 논문은 일정한 모델 성능평가 지표를 재현할 수 있도록 Embedding, Convolution, Bi-LSTM의 학습 변수의 임의 초깃값 생성에 고정 시드를 사용하였고, GPU 가속과 Tensorflow 관련된 환경변수를 고정하였다.

Fig. 2. Classification Models of BIM Requirement Difficulty Level in Bidding Sentences
../../Resources/KSCE/Ksce.2024.44.6.0843/fig2.png

3. 문자 임베딩 모델별 학습 및 성능 비교

3.1 모델별 성능 비교

Table 3에 나타낸 매개변수를 조합하여 Model A, B, C에 대한 학습을 수행하였고, 검증데이터에 대한 모델 성능 지표를 비교하였다. 여기서 배치 크기 및 임베딩 층의 출력 크기, Bi-LSTM 층의 은닉층 유닛수는 딥러닝 관련 연구문헌 및 Kaggle, Dacon 등 머신러닝 경진대회 플랫폼에서 통상 제시되는 범위의 값을 사용하였고, 1D 합성곱 층의 필터 수 및 크기는 Kim(2014)를 참고해 결정하였다. 모델별 매개변수 조합에 따른 학습 조건은 각각 16, 48, 144개 경우이며, 학습을 수행해 검증데이터에 대한 F1 분포를 Fig. 3에 나타냈다. 여기서 사용된 모든 모델은 최대 Epoch에 도달하기 전 학습이 종료된 것으로 학습데이터에 대해 과소 훈련 및 과적합되지 않았다.

Fig. 3. F1 Distribution of Models for Validation Data. (a) Histogram of F1, (b) Scatter Plots of F1 with the Same Batch Size, (c) Scatter Plots of F1 with the Same Embedding Output Dimension
../../Resources/KSCE/Ksce.2024.44.6.0843/fig3.png

먼저 Fig. 3(a)는 매개변수 조건과 관계없이 모든 모델의 F1을 0.05 단위로 구분한 도수분포도이다. Fig. 3(a)에서 확인할 수 있듯이 Model A와 B의 F1이 0.90~0.95에 집중되어 있어, Model A와 B가 매개변수인 Embedding 층의 출력 크기 및 배치 크기에 대해 민감하지 않음을 알 수 있다. 이러한 사실은 Embedding 출력 크기와 배치 크기를 기준으로 F1 구분한 Figs. 3(b) and 3(c)에서도 확인할 수 있다. Figs. 3(b) and 3(c)에서도 F1은 0.90~0.95 사이에 존재하고 있으며, Embedding 출력 크기나 배치 크기의 증감에 따른 일관된 경향이 나타난다고 보기 어려웠다. Model B는 Bi-LSTM의 은닉층의 유닛 수를 추가로 매개변수로 포함하고 있음에도 Model A 대비 두드러진 F1의 개선은 확인되지 않았으며, 매개변수를 구분하여 나타낸 경우에도 Model B의 F1이 0.9~0.95에 밀집한 경향을 보이므로 Bi-LSTM 은닉층 유닛 수에 따른 성능 변화 또한 미미함을 알 수 있다. 한편 Model C는 Fig. 3 전체에서 0.6과 1.0 사이에 넓게 분포하고 있어 모델 매개변수(합성곱의 필터 수 및 크기)의 영향을 민감하게 받고 있음을 알 수 있다. 또한 배치 크기별로 구분한 Fig. 3(b)와 Embedding 출력 크기별로 구분한 Fig. 3(c)의 F1 모두 분산되어 있으므로 Model C의 경우 배치 크기와 Embedding 출력 크기에 영향을 받는 것을 알 수 있다. 각 모델의 매개변수 영향을 구분해 3.2~3.5에서 분석하였다.

Table 3. Main Reference Parameters of Each Layer in the Proposed Model

Parameter

Values

Related Model

Batch size

64, 128, 512, 1024

A, B, C

Embedding

Output dimension

16, 32, 64, 128

Bi-LSTM

# of hidden units

32, 64, 128

B

1D Convolution

# of filters

4, 8, 16

C

Filter size

1, 5, 10

3.2 Model A의 문자 임베딩 모듈 매개변수 영향 분석

모델 전체에 대한 F1 분포뿐만 아니라 모델별 동일 매개변수 조건에 대해 비교해도 Model A와 B의 매개변수 민감성은 낮은 것으로 확인된다. 먼저 Fig. 4는 Model A에 대해 배치 크기별로 Embedding 출력 크기 증가에 따른 F1 추이를 보여주며, Table 2의 매개변수 조합에 대해 Model A의 F1이 0.915~0.934를 나타내 모델의 최적화는 이뤄진 것으로 판단되나 배치 크기 및 Embedding 출력 크기에 따른 F1의 일관된 경향성을 확인하기 어렵고 크기 변화도 미미하였다. 이러한 결과는 Model A의 임베딩 모듈의 구조 특성상 모델의 복잡성이 높지 않고 데이터셋 규모도 크지 않아, Model A가 가질 수 있는 최적 상태에 도달해 매개변수의 영향이 작았던 것으로 추정된다.

Fig. 4. F1 Distribution of Model a for Validation Data
../../Resources/KSCE/Ksce.2024.44.6.0843/fig4.png

3.3 Model B의 문자 임베딩 모듈 매개변수 영향 조사

Fig. 5는 Model B의 배치 크기별 Embedding 출력 크기와 Bi-LSTM의 은닉층 유닛 수에 따른 F1에 대한 등치선도(간격: 0.025)를 보여준다. 매개변수 변화에 따라 F1의 범위가 0.916~0.940 나타나 Model A 대비 지표는 상승했으나 증가 크기가 미미하였고, Fig. 5에서 확인할 수 있듯이 매개변수 변화에 따른 F1의 변동도 0.025~0.050 이내였다.

Model B가 Bi-LSTM층을 추가함으로써 문장을 구성하는 순서 정보까지 반영해 모델의 복잡성이 증가하였음에도 Model A 대비 성능 개선 및 매개변수의 영향이 미미하였다. 이는 Bi-LSTM 층을 추가함으로써 학습 중 갱신 변수(Trainable variable)가 Model A 대비 최대 3배 수준까지 증가하는 등 모델은 커졌으나, 모델 규모 대비 적은 데이터셋이 그대로 사용되어 추가적인 성능 개선이 이뤄지지 않았다고 판단되며 이에 대한 근거는 3.5에 자세히 기술하였다.

Fig. 5. F1 Distribution of Model B for Validation Data. (a) Batch Size: 1,024, (b) Batch Size: 512, (c) Batch Size: 128, (d) Batch Size: 64
../../Resources/KSCE/Ksce.2024.44.6.0843/fig5.png

3.4 Model C의 문자 임베딩 모듈 매개변수 영향 조사

Model C는 매개변수 조건에 따라 Model A와 B 대비 성능이 개선된 모델이 다수 확인되었다. Fig. 6은 Model C의 합성곱 필터 수 및 크기 매개변수에 대한 영향을 확인하기 위해 배치 크기 64로 학습한 모델의 Embedding 출력 크기별로 필터 수 및 크기 조건에 따른 F1 변화를 나타낸 것으로, 등치선 간격은 0.025이다. Fig. 6에서 필터 수 및 필터 크기가 증가함에 따라 F1 등치선 값도 증가하는 경향이 있음을 명확히 확인할 수 있다. 등치선 또한 전반적으로 필터 수 및 필터 크기가 작을수록 급격한 값의 변화를 보였고, 필터 수가 4에 가까울수록 등치선의 방향이 급한 우하향 기울기를 가지므로 필터 수가 필터 크기보다 F1 변화에 더 지배적인 영향인자임을 알 수 있다. 그러나 필터 수가 8 이상으로 증가하면서부터 등치선도의 색 변화가 감소하고 필터 수가 4일 때보다 등치선이 점차 넓게 배치되므로, 필터 수 및 필터 크기의 증가에 의한 F1의 증가 효과도 점차 작아짐을 알 수 있다. 필터 수 8 및 필터 크기 5 이상부터 F1이 0.93 이상으로 높은 값을 보이고 있고 해당 매개변수 변화에도 값의 변화가 없거나 미미하므로, 모델 성능이 사용된 데이터셋에 대해 포화 상태에 다다른 것으로 판단할 수 있다.

추가로 Model C는 Embedding 출력 크기 32와 64인 경우에 필터 매개변수에 따른 지표 변화가 두드러진 반면 16 및 128 조건은 필터 매개변수에 따른 유의미한 F1 변화를 확인되나 32와 64 조건에 비해 변동 범위가 0.1로 작았다. 나머지 배치 크기 조건 1024, 512, 128에서도 64와 유사한 결과를 확인할 수 있었다. 배치 크기에 무관하게 Fig. 5와 유사한 F1 분포가 확인되고 있으므로, Embedding 출력 크기가 Model C의 성능에 영향을 주는 것을 확인하였으나, Embedding 출력 크기 증감에 비례한 일관된 경향성은 확인하지 못하였다.

Model C는 Embedding 층에 추가해 합성곱 층을 추가함으로써 모델의 복잡성이 높아졌으나 Model B와 달리 매개변수의 영향이 명확히 확인된다. 이는 합성곱 추가로 인한 모델의 규모 증가가 Model B에 비해 크지 않고, Model C의 단어 또는 구문 단위의 정보 추출 방식이 BIM 요구사항 난이도 판별에 더 효과적임을 보여준다. 상세 내용은 3.5절에서 다룬다.

Fig. 6. F1 Distribution of Model B for Validation Data: Batch Size 64. (a) Embedding Output Dimension: 16, (b) Embedding Output Dimension: 32, (a) Embedding Output Dimension: 64, (b) Embedding Output Dimension: 128
../../Resources/KSCE/Ksce.2024.44.6.0843/fig6.png

3.5 문자 임베딩 모듈 매개변수 영향 비교 분석

Table 4는 모델별 일부 매개변수 변화에 따른 모델 내 학습 변수 양을 정리한 것이다. 먼저 Model A는 분류 모듈에 전달할 수 있도록 임베딩 벡터의 생성을 위해 Embedding 층에 Flatten 층을 추가하는 과정에서 학습 변수가 늘어난다. 가령 Embedding 출력 크기를 64에서 128로 증가시킴에 따라 학습 변수도 2배로 늘어난다. 그러나 입찰 문장에 대한 문자 조합 외 추가적인 정보를 반영하지 못하고 데이터셋의 규모는 변화가 없으므로, 모델의 복잡성만 높아져 별다른 성능 개선 및 매개변수 영향을 확인할 수 없다. 한편 Model B는 Bi-LSTM 층을 추가함으로써 문자 순서 및 구성 정보를 전달할 수 있지만 Bi-LSTM 층의 은닉층 유닛 수에 따라 Model A 대비 학습 변수가 유사하거나 증가하게 되고 그 결과 모델의 성능 개선을 위해 Model A 대비 더 많은 데이터를 필요하게 된다. 반면 Model C는 합성곱 및 Maxpooling 층을 통해 단어 및 구문 정보를 축약해 분류 모듈로 더 작은 규모로 임베딩 벡터를 전달할 수 있고, 이를 통해 동일 Embedding 출력 크기 조건의 타 모델 대비 적은 학습 변수만 필요로 하게 된다. 또한 필터 관련 매개변수 증가로 인한 학습 변수 증가량도 Model B의 은닉층 유닛 수 증감에 따른 변화량에 비해 작다. 따라서 Model C는 모델 규모와 학습에 필요한 데이터 규모 균형을 이뤘고, 필터 매개변수가 일정 크기 이상인 조건에서 타 모델 대비 BIM 입찰 요구사항 분류 성능이 전반적으로 높을 수 있었다고 판단된다.

Table 4. Comparison with the Trainable Variables of Models

Model

Parameters*

Trainable variables

e

fn

fs

h

A

1

64

-

-

-

72,513

2

128

-

-

-

145,025

B

1

64

-

-

32

70,529

2

64

-

-

64

111,809

3

128

-

-

32

132,545

C

1

64

16

5

-

50,785

2

64

16

10

-

55,905

3

128

8

5

-

96,401

4

128

16

5

-

101,537

* e: Embedding output dimension, fn: # of Filters, fs: Filter size, h: # of hidden layer

또한 일정 이상의 합성곱 필터 매개변수를 사용한 Model C의 성능 지표가 다른 모델에 비해 높으므로, Model C가 BIM 요구사항에 대한 중요 정보의 추출 관점에서도 다른 모델 대비 장점이 있을 것으로 판단할 수 있다. 입찰문서 내 BIM 요구사항은 상세히 기술하기에 제약이 있으므로 의도한 바와 관련 설명을 풀어쓰기보다는 특정 BIM 관련 용어를 통해 간단한 문장으로 표현하는 경우가 대부분이다. 또한 BIM 요구사항에 대한 난이도 데이터셋의 구축 과정에서 실무자들 또한 특정 BIM 관련 용어를 통해 연상되는 업무 및 후속 절차에 바탕해 난이도 점수를 부여했을 가능성이 높다. 따라서 입력 문장 전체 정보 및 입력 문장 내 단어 간 선후관계 특징(Model B)보다는 특정 단어의 포함 유무가 난이도 판단에 더 중요한 정보로써 활용되고, 이에 따라 특정 BIM 과업 및 사용 기술을 지칭하는 단어 및 구절의 등장과 해당 내용의 의무사항 여부가 입찰 문장의 난이도 결정에 주요한 인자로 작용했다고 추정해 볼 수 있다. 이 경우 단어 및 구절 단위 정보를 함축할 수 있는 Model C가 정보 추출능력 측면에서 다른 모델보다 더 우수할 수 있고, 결과적으로 더 우수한 예측 성능을 보인 것으로 판단할 수 있다.

추가로 3.4의 결과에서 필터 수가 필터 크기에 대비해 모델 성능에 지배적인 영향을 보여준 것을 다음과 같이 설명할 수 있다. 모델의 필터 수는 텍스트 내 특정한 유형을 추출하는 능력에 영향을 미치고, 필터 크기는 필터가 감지할 수 있는 문자 배열 길이와 관련된다. 임의 입찰문장에 대해 동일한 내용도 여러 표현이 가능하고, 단어의 표기도 띄어쓰기에 따라 달라질 수 있는데(BIM, 건설정보모델, 건설 정보 모델, 비아이엠), 다수의 필터의 사용이 다양한 표기를 포착하는데 기여한 것으로 추정된다. 또한 길이가 긴 필터는 길고 복잡한 구문이나 복합 단어를 학습하는데 기여할 수 있지만, 입력된 텍스트가 짧거나 간단한 구조로 되어 있는 경우도 존재해 필터 크기가 일정 값 이상이 됨에 따라 지표 변화에 별다른 기여를 하지 못하고 있다. 이는 BIM 요구사항의 난이도 판별 시, 난이도가 특정 길이를 갖는 단어 및 복합 단어의 존재로만 결정되는 것이 아니라, 맥락적 의미까지 포함해야 함을 알 수 있다. 예를 들어, Table 1의 문장 1에서 As-Built Model은 종종 설계 모델과 현장데이터 간의 불일치, 세부사항의 모델링 및 정보 반영, 그리고 여러 시공주체 간의 의사소통 불일치 및 정보 공유 제한 등이 발생할 수 있어 해당 단어는 입찰문장의 체감 난이도를 높이는 요소로 작용할 수 있다. 특히 발주자의 유지관리 목적까지 고려한 광범위한 각종 정보의 상세한 입력을 강제한다는 점에서 난이도가 높게 평가될 수 있다. 그러나 문장 1의 종결부가 ‘해야한다’가 아니라 ‘협의해 결정한다’로 변경된다면 문장의 난이도는 낮게 평가될 수 있으므로, 단순히 특정 단어의 존재뿐만 아니라 요구 강도 및 의무사항 여부를 맥락적으로 파악해야 난이도를 적절히 평가할 수 있다. 따라서 단어 및 문구 추출에 영향을 미치는 필터 크기보다는 다양한 유형 추출 능력과 관련된 필터 수 변화가 모델 성능 지표에 더 민감하게 영향을 미쳤을 것으로 판단된다.

4. 문자 임베딩 모델의 분류 성능 비교

다양한 매개변수 조건을 부여한 각 모델 가운데 검증데이터에 대해 가장 높은 F1 값을 보였던 모델의 매개변수 조건과 및 성능 지표를 정리해 Table 5에 나타내었고, 해당 모델의 학습 과정 중 손실함수 값 및 정확도 곡선 추이를 Fig. 7에 함께 나타내었다.

Fig. 7에서 확인할 수 있듯이 학습데이터에 대한 모델별 정확도 및 손실함수 값은 모두 1과 0으로 빠르게 수렴하였다. Model A와 C는 epoch 40 근처에서 정확도 1.0으로 Model B 대비 빠른 수렴 경향을 보였고 손실함수도 0에 근사하였다. 검증데이터에 대해서도 훈련데이터와 유사한 학습 곡선 변화를 나타냈으며 Model C가 수렴에 가장 빠르게 도달하고 있음을 확인할 수 있다. Table 5에 나타낸 바와 같이 모든 문자 임베딩 기반 분류 모델이 학습데이터 대비 검증데이터에 대해 F1의 감소가 확인되나, 0.93~0.97로 평가되고 있어 대부분의 입찰 문장으로부터 BIM 요구사항에 대한 난이도를 올바르게 판별할 수 있을 것으로 판단된다. 검증데이터에 대해 Model B가 Model A 대비 F1이 높으나, 크기가 0.01로 미미해 3절의 분석 내용과 마찬가지로 Bi-LSTM 신경망을 추가한 것이 BIM 요구사항의 난이도를 판별에 기여했다고 보기 어렵다. 한편 Model C의 F1도 데이터셋의 구성에 따라 우열 순위가 달라질 수 있는 범위이나 0.97로 다른 두 모델보다 높게 나타났다.

Table 5. Main Reference Parameters of Each Layer in the Proposed Model

Model

Parameters*

Metric**

Train data

Validation data

b

e

fn

fs

h

F1

A

F1

A

A

512

128

-

-

-

1.00

0.99

0.93

0.93

B

1024

64

-

-

32

0.99

0.98

0.94

0.94

C

128

128

16

5

-

1.00

1.00

0.97

0.97

* b: Batch size, other notations: same as Table 3

** F1: Harmonic mean of precision and recall, A: Accuracy

Fig. 7. Metrics and Loss Curves of Character Embedding Models: Train(T) and Validation(V)
../../Resources/KSCE/Ksce.2024.44.6.0843/fig7.png

Table 5 조건의 문자 임베딩 분류 모델의 성능 비교를 위해 시험데이터에 대한 모델별 최종 분류 성능을 Table 6에 나타내었다. 시험데이터에 대해 모델을 적용함에 따라 Model A와 B의 F1의 지표가 검증데이터 대비 2~3 % 감소되었으나 급격한 모델의 성능 저하는 확인되지 않아 두 모델 모두 충분히 학습된 것으로 판단된다. 한편 Model C는 검증데이터 대비 지표가 감소하지 않아 충분히 학습되었고 다른 두 모델보다 강건한 BIM 요구사항 난이도 판별 능력이 있으며, 다른 두 모델보다도 효과적으로 입찰 문장의 BIM 요구사항 난이도 정보 특징을 효과적으로 추출해 분류 모듈로 전달했다고 판단할 수 있다.

추가로 단어 임베딩을 사용한 Kim et al.(2023)의 결과를 문자 임베딩 모델 결과와 함께 정리해 Table 6에 나타내었다. 여기서 본 연구와 Kim et al.(2023)은 동일한 훈련, 검증, 시험데이터를 사용한다. 비교 결과, 문자 임베딩 기반 분류 모델의 F1이 단어 임베딩 모델 대비 약 5 %(Models A and B) 및 15 %(Model C) 높게 평가되어 BIM 요구사항 난이도 판별에 대해 더 높은 정확성을 가질 것으로 기대할 수 있다. 또한 본 논문의 문자 임베딩 모델은 입찰 문장에 대한 별다른 전처리 과정을 거치지 않았을 뿐만 아니라 한글 형태소 분석기의 성능을 높이기 위해 건설 및 BIM 관련 용어를 별도로 추가할 필요가 없다는 점에서 단어 임베딩 모델보다 효율성이 높고 효과적인 접근 방법이라고 판단된다. 다만 본 논문에서 다룬 데이터셋의 규모가 제한적이므로 모델의 과소적합 및 과적합 가능성 모두 존재하므로, 향후 다양한 BIM 입찰문장 및 난이도 데이터셋의 확보와 이를 활용한 추가적인 모델 검증이 필요할 것으로 생각된다.

Table 6. Metrics of Character and Word Embedding Models for Test Dataset

Model

Metric

F1

Accuracy

A

0.91

0.91

B

0.91

0.91

C

0.98

0.98

Word Embedding based model

(Kim et al., 2023)

0.83

0.84

4. 결 론

본 연구는 입찰문서 내 포함된 BIM 요구사항 난이도 판별에 문자 구성, 문자 순서 정보, 단어 및 구문 정보를 특징 벡터로 추출하는 문자 임베딩 구조를 제시하고 각 문자 임베딩 방법에 따른 난이도 판별 모델의 분류 성능을 F1 지표로 비교 평가하였다. 제시된 문자 임베딩 방법별 최적 분류 모델 도출을 위해 매개변수 연구를 수행하였고 다음의 결과를 얻었다.

입력 문장의 문자 구성 정보만 반영한 모델(Model A)의 F1이 시험데이터에 대해 0.91로 평가되어 높은 판별 성능을 보여주었으나, 매개변수 분석 시 검증데이터에 대한 F1 변화는 미미해 배치 크기와 Embedding 층의 출력 크기 등의 영향이 Model A의 성능 개선에 별다른 영향을 미치지는 않았다. 문자 구성 및 순서 정보를 반영한 모델(Model B)의 F1 또한 시험데이터에 대해 0.91로 평가되었고 매개변수 변화에 따른 지표의 별다른 변동이 확인되지 않아, 특징 벡터에 문자 순서 정보를 반영하는 것이 BIM 요구사항의 난이도 판별 성능 개선에 효과적인 방법이 아님을 확인하였다. 단어 및 구문 정보를 축약해 반영한 모델(Model C)의 매개변수 영향 조사에서 합성곱 필터 관련 매개변수 설정이 성능에 지배적 인자임이 확인되었고, 최적 매개변수 조건의 Model C는 다른 두 모델보다 더 우수한 판별 성능을 나타내(F1: 0.98) Model C가 BIM 요구사항의 난이도 관련 정보를 다른 두 모델보다 효과적으로 추출해 모델 성능 향상에 기여할 수 있음을 보였다. 추가로 동일 데이터셋에 대해 위의 문자 임베딩 기반 모델과 단어 임베딩 모델의 F1을 비교함으로써, 문자 임베딩이 BIM 요구사항 난이도 판별에 대해 더 우수한 성능을 가지는 것을 확인하였다.

본 연구는 별다른 전처리 과정을 거치지 않은 BIM 입찰 텍스트에 대해 문자 임베딩을 사용한 BIM 요구사항 난이도 판별 모델이 텍스트 정제 및 전문용어 사전 등을 포함한 단어 임베딩 기반 판별 모델보다 더 우수할 수 있음을 확인하였다. 여러 문자 임베딩 및 단어 임베딩 모델 간의 객관적인 비교를 통해 BIM 입찰 텍스트에서 문자 임베딩 활용의 효과를 입증하고, 개선된 대안 모델을 제시하였다는 점에서 의의가 있다고 판단된다.

최근 대형 언어 모델의 개발 및 확산이 범용 및 전문분야로 빠르게 이뤄지고 있다. 해당 모델은 서브워드 단위의 토큰 사용, 토큰 위치 정보 및 문맥 정보를 담은 임베딩을 사용해 모델 구조상 텍스트의 여러 특징을 정교하게 파악하고 일반화할 수 있다. 제안된 문자 임베딩 모델은 대형 언어 모델 대비 복잡하지 않고 모델 구조상 텍스트의 추출 능력이 낮을 수 있으나, 성능 확보를 위해 소규모 데이터 및 연산 자원이 요구되므로 신규 데이터 학습을 통한 갱신이 용이하고 적용 대상에 따라 대형 언어모델 대비 높은 효율성은 기대할 수 있다. 향후 입찰 서류에서의 BIM 요구사항 난이도 판별을 위한 양질의 데이터 확보를 위한 노력을 강화하는 한편 기구축한 데이터셋에 증강 기법을 적용하여 데이터 규모를 확대함으로써, 모델 성능을 개선하고 분석 결과의 일반화를 통해 제안된 모델의 신뢰성을 높이고자 한다. 또한 해당 데이터셋을 전이 학습한 대형 언어 모델과 제안 모델과의 성능을 비교해 제안 모델의 장점 및 한계를 제시하고자 한다.

Acknowledgements

This paper is supported by the Korea Agency for Infrastructure Technology Advancement(KAIA) grant funded by the Ministry of Land, Infrastructure and Transport (Research project: BIM-based infrastructure order-design process digital collaboration system development, No.:RS-2022-00143371).

References

1 
"Ahn, S. M., Chung, Y., Lee, J. J. and Yang, J. (2017). “Korean sentence generation using phoneme-level LSTM language model.” The Journal of Intelligence and Information Systems, Vol. 23, No. 2, pp. 71-88, https://doi.org/10.13088/jiis.2017.23.2.071 (in Korean)."DOI
2 
"Cho, W. I., Cheon, S. J., Kang, W. H., Kim, J. W. and Kim, N. S. (2021). “Giving space to your message: Assistive word segmentation for the electronic typing of digital minorities.” Proceedings of the Designing Interactive Systems Conference 2021, New York, USA, pp. 1739-1747, https://doi.org/10.1145/3461778.3462078."DOI
3 
"Cho, W. I., Kim, S. M. and Kim, N. S. (2019). Investigating an effective character-level embedding in Korean sentence classification, Cornell University Library, Ithaca, New York, Available at: https://arxiv.org/pdf/1905.13656 (Accessed: August 20, 2024)."URL
4 
"Choi, S. (2024). “Internalization approach and application cases of ssangyong construction's smart technology.” Construction Technology Review Ssangyong, Vol. 81, pp. 77-81 (in Korean)."URL
5 
"Choi, S. J., Choi, S. W., Kim, J. H. and Lee, E. B. (2021). “AI and text-mining applications for analyzing constractor’s risk in invitation to bid (ITB) and contracts for engineering procurement and construction (EPC) projects.” Energies, Vol. 14, No. 15, p. 4632, https://doi.org/10.3390/en14154632."DOI
6 
"Choi, S. W. and Lee, E. B. (2022). “Contractor's risk analysis of engineering procurement and construction (EPC) contracts using ontological semantic model and bi-long short-term memory (LSTM) technology.” Sustainability, Vol. 14, No. 11, p. 6938, https://doi.org/10.3390/su14116938."DOI
7 
"Kim, Y. (2014). “Convolutional neural networks for sentence classification.” Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar, https://doi.org/10.48550/arXiv.1408.5882."DOI
8 
"Kim, J., Lee, Y. and Moon, H. (2021). A Study on Guidelines and a roadmap for applying BIM to Seoul, 2021-AD-018, Seoul Institute of Technology, pp. 46-50 (in Korean)."URL
9 
"Kim, J., Moon, H. and Park, S. (2023). “A deep learning model to predict BIM execution difficulty based on bidding texts in construction projects.” KSCE Journal of Civil and Environmental Engineering Research, Vol. 43, No. 6, pp. 851- 863 (in Korean)."DOI
10 
"Kim, H., Oh, H. S. and Kim, D. (2020). “CNN architecture predicting movie rating from audience’s reviews written in Korean.” KIPS Transactions on Computer and Communication Systems, Vol. 9, No. 1, pp. 17-24, https://doi.org/10.3745/KTCCS.2020.9.1.17."DOI
11 
"Lee, H. Y. and Kang, S. S. (2019). “Compound noun decom- position by using syllable-based embedding and deep learning.” Smart Media Journal, Vol. 8, No. 2, pp. 66-71, https://doi.org/10.30693/smj.2019.8.2.74 (in Korean)."DOI
12 
"Lee, D. H., Yoon, G. H. and Kim, J. J. (2019). “Development of ITB risk management model based on AI in bidding phase for oversea EPC projects.” The Journal of the Institute of Internet, Broadcasting and Communication, IIBC, Vol. 19, No. 4, pp. 151-160, https://doi.org/10.7236/JIIBC.2019.19.4.151 (in Korean)."DOI
13 
"Moon, H., Won, J. and Shin, J. (2018). BIM Roadmap and Activation Strategies for Public SOC Projects, KICT 2018-029, Korea Institute of Civil Engineering and Building Technology, pp. 6-10 (in Korean)."URL
14 
"Moon, S., Chi, S. and Im, S. B. (2022). “Automated detection of contractual risk clauses from construction specifications using bidirectional encoder representations from transformers (BERT).” Automation in Construction, Vol. 142, p. 104465, https://doi.org/10.1016/j.autcon.2022.104465."DOI
15 
"Moon, S., Lee, G., Chi, S. and Oh, H. (2021). “Automated construction specification review with named entity recognition using natural language processing.” Journal of Construction Engineering and Management, ASCE, Vol. 147, No. 1, https://doi.org/10.1061/(ASCE)CO.1943-7862.0001953."DOI
16 
"Ministry of Land, Infrastructure and Transport (2023). “Construction engineering, younger and smarter.” [Press release]. Ministry of Land, Infrastructure and Transport, https://eiec.kdi.re.kr/policy/materialView.do?num=246231&pg=&pp=&topic=L, 2023.12.20."URL
17 
"Shin, W.-S., Lee, J.-Y. and Son, C.-B. (2023). “Analyzing competency level of architectural designers and its improvement measures.” Journal of the Architectural Institute of Korea, Vol. 39, No. 9, pp. 229-236, https://doi.org/10.5659/JAIK.2023.39.9.229 (in Korean)."DOI
18 
"Sung, W., An, J. and Lee, C. C. (2020). “Development and validation of the letter-unit based Korean sentimental analysis model using convolution neural network.” The Journal of Society for e-Business Studies, Vol. 25, No. 1, pp. 13-33, https://doi.org/10.7838/jsebs.2020.25.1.013 (in Korean)."DOI