성지연
(Ji Yeon Sung)
1iD
나종호
(Jong Ho Na)
2
공준호
(Jun Ho Gong)
3
정유석
(Yoo Seok Jung)
4
신휴성
(Hyu Soung Shin)
5
오윤석
(Yoon Seuk Oh)
6†
-
정회원 · 한국건설기술연구원 미래스마트건설연구본부 연구원
(Korea Institute of Civil Engineering and Building Technology · jiyeon.sung@kict.re.kr)
-
한국건설기술연구원 미래스마트건설연구본부 박사후연구원
(Korea Institute of Civil Engineering and Building Technology · najongho@kict.re.kr)
-
한국건설기술연구원 미래스마트건설연구본부 수석연구원
(Korea Institute of Civil Engineering and Building Technology · jhgong@kict.re.kr)
-
한국건설기술연구원 미래스마트건설연구본부 수석연구원
(Korea Institute of Civil Engineering and Building Technology · yooseok@kict.re.kr)
-
종신회원 · 한국건설기술연구원 미래스마트건설연구본부 선임연구위원
(Korea Institute of Civil Engineering and Building Technology · hyushin@kict.re.kr)
-
종신회원 · 교신저자 · 한국건설기술연구원 미래스마트건설연구본부 선임연구위원
(Corresponding Author ․ Korea Institute of Civil Engineering and Building Technology
· ysoh@kict.re.kr)
Copyright © 2026 by the Korean Society of Civil Engineers
핵심용어
건설안전, 사고사례, 의미검색, LLM, 재발방지대책
Keywords
Construction safety, Accident case analysis, RAG, LLM, Countermeasure generation
1. 서 론
최근 건설현장은 공정 복잡성 증가, 사업 규모 확대, 다국적 인력 구성 등으로 인해 사고 발생 위험이 증가하고 있다. 우리나라는 OECD 국가 중
산업재해 발생률이 높은 편으로, 2023년 근로자 1만 명당 사망자 수는 1.59명으로 선진국인 영국(0.24)의 6.6배에 달한다(CERIK, 2025). 특히 건설 재해는 치명도가 크고 사고 원인이 복합적으로 얽혀 있는 특징을 가진다.
국내 건설현장에는 대량의 사고 데이터가 축적되어 있음에도 이를 분석적으로 활용할 수 있는 체계가 미비하다. 현장에서 작성되는 사고보고서는 정형화된
서식에 필수 항목만을 기계적으로 채우는 경우가 많아, 사고의 맥락적 원인이나 현장 특성을 충분히 반영하지 못한다. 그 결과 재발방지대책의 내용은 작성자의
경험과 역량에 크게 의존하며, 동일 유형의 사고가 반복되거나 위험요인이 사전에 효과적으로 통제되지 못하는 구조적 문제가 지속되고 있다. 이와 같은
사고보고서 활용 구조의 한계는 사고데이터 기반의 근거 중심 대책을 일관성 있게 도출할 수 있는 자동화 기술의 필요성을 더욱 부각시키고 있다.
최근 대규모 언어모델(Large Language Model, LLM)이 발전함에 따라 자연어 기반 사고 분석 및 문서 자동화에 대한 관심이 높아지고
있다(Arslan et al., 2024). 특히 Retrieval-Augmented Generation(RAG) 기술은 외부 지식 결합과 기존 LLM이 가진 환각(hallucination)
문제 완화에 효과적임을 보고하였다(Guo et al., 2023; Lewis et al., 2020; Xu et al., 2023).
건설안전 분야에서도 LLM을 활용한 위험요인 추출, 현장 보고서 요약, 규정 기반 검토 등 다양한 가능성이 제시되었다(Lee and Sung, 2025; Wang and Yu, 2024). 그러나 사고 사례와 안전지침을 결합하여 재발방지대책을 자동 생성하는 연구는 아직 제한적으로만 이루어지고 있다(Baek et al., 2025; Qian et al., 2024).
이에 본 연구는 건설공사 안전관리 종합정보망(CSI)에 축적된 사고보고서와 산업안전보건공단(KOSHA)의 건설안전 가이드를 통합적으로 활용하여, 사고사례분석과 근거 기반 대책 생성을 수행하는 RAG
기반 LLM 프레임워크를 제안한다. 본 프레임워크는 사고사례데이터의 전처리 및 정제, 의미 기반 임베딩 및 벡터DB 구축, 유사사례와 지침서의 검색,
그리고 근거자료를 반영한 대책 생성의 네 단계로 구성된다. 이를 통해 기존 수기 보고 방식에서 발생하던 작성자 의존성과 근거 부족 문제를 완화하고,
일관된 품질의 재발방지대책을 자동으로 도출할 수 있는 체계를 마련하고자 한다.
본 연구의 핵심적 기여는 다음과 같다. 비정형 경험 데이터인 사고사례와 함께 지침 문서의 규범 데이터를 이중 검색 구조로 통합한 RAG 프레임워크를
건설안전 도메인에 적용하였다. 더하여, 단순 생성 성능이 아닌, 근거 반영 여부(groundedness)를 핵심 평가 기준으로 설정하여 실무 적용
가능성을 정량적으로 검증하였다.
2. 연구방법
2.1 LLM-RAG 프레임워크 개요
본 연구의 전체 절차는 Fig. 1에 제시된 LLM-RAG 기반 사고대책 생성 프레임워크를 따른다. 본 프레임워크는 네 단계로 구성된다. 1단계에서는 CSI 사고보고서와 KOSHA
가이드 문서를 전처리하여 비정형 텍스트를 정규화하고, 사고사례는 문서 단위로, 지침서는 의미 단위로 분할한다. 2단계에서는 전처리된 텍스트를 임베딩하여
벡터 형태로 변환하고, 이를 기반으로 FAISS(Facebook AI Similarity Search) 벡터DB를 구축한다. 3단계에서는 사용자가
입력한 사고 상황 질의를 임베딩한 후, 벡터DB에서 의미적으로 가장 유사한 사고사례와 지침서를 검색하여 LLM 프롬프트에 컨텍스트로 제공한다. 마지막으로
4단계에서는 LLM이 검색된 근거 문서를 기반으로 현장 적용 가능한 재발방지대책을 자동으로 생성한다. Fig. 1은 이러한 단계별 흐름을 시각적으로 나타낸 것이다.
2.2 데이터 구성 및 정제
본 연구에서는 두 종류의 데이터를 활용하였다. 첫째는 실제 국내 건설현장에서 발생한 사고사례 데이터이고, 둘째는 산업안전보건공단이 공식적으로 발간한
건설안전 관련 지침서 자료이다.
사고사례 데이터의 경우, CSI에서 2015년부터 2024년까지 축적된 보고서 약 20,000건을 웹페이지(https://www.csi.go.kr/acd/acdCaseList.do)에서
수집하여 사용하였다. 해당 데이터에는 공종, 사고 유형, 발생 상황, 원인 분석, 기존에 제시된 재발방지대책, 피해 규모 등의 다양한 정보를 포함하고
있다. 본 연구에서는 ‘공종’, ‘작업프로세스’, ‘사고경위’, ‘재발방지 대책’, ‘향후조치계획’ 필드만을 필터링하여 사용하였다.
건설 안전 지침서 데이터는 산업안전보건공단에서 발간하는 KOSHA 가이드(KOSHA, 2011-2025)의 PDF 파일을 사용하였다. 이때, LLM이 처리할 수 있도록 OCR을 지원하는 라이브러리인 Unstructured를 이용해 텍스트로 변환하였다.
가이드 문서에는 공종별 위험요인과 표준 예방대책이 포함되어 있어 사고사례의 문맥적 해석을 보완하고 추가적으로 필요한 조치를 제안할 수 있다. 사고사례별로
분리되어 있어 그 자체로 하나의 청크(chunk)로 기능하도록 할 수 있는 CSI 데이터와는 달리, KOSHA 가이드 데이터는 분할이 이루어졌다.
이때, 토크나이저를 기준으로 텍스트를 토큰(token)으로 분할하는 방법을 사용하였다. 일부 청크의 오버랩 설정을 적용하여 적절히 분할될 수 있도록
하였다.
2.3 의미 기반 검색 및 벡터DB 구축
사고사례 및 안전지침서 데이터의 정제가 완료된 후, 두 데이터셋은 의미적 비교가 가능하도록 임베딩 벡터로 변환하였다. 여기서 임베딩(embedding)이란
텍스트를 숫자로 구성된 다차원 벡터로 변환하는 과정으로, 문장 간 의미적 유사도를 정량적으로 비교할 수 있게 해주는 것을 말한다. 벡터는 텍스트의
의미적 특징을 압축해 표현한 일종의 좌표값으로 표현된다. 본 연구에서는 한국어 특화 성능이 검증된 LG AI 연구원의 EXAONE-3.5 모델의 텍스트
표현 벡터(representation)를 추출하여 임베딩으로 활용하였다. 해당 모델은 대규모 한국어 말뭉치를 기반으로 학습되어 건설 사고보고서와 같이
기술적 용어가 혼합된 텍스트에서도 안정적인 의미 표현을 생성하는 장점이 있다.
임베딩된 벡터는 효율적인 검색 연산을 위해 FAISS 라이브러리를 사용하였다(Douze et al., 2024). FAISS는 대규모 임베딩 벡터 간 유사도 검색 및 인덱싱을 효율적으로 수행하는 라이브러리로, RAG 시스템과 같은 의미 기반 검색에 흔히 사용된다.
대량의 벡터에 대하여 코사인 유사도(cosine similarity) 및 최근접 이웃 검색을 매우 빠르게 수행하는데, 코사인 유사도는 두 벡터가 이루는
각도의 코사인을 계산하여 유사도를 측정하는 방식으로 값이 1에 가까울수록 두 텍스트의 의미가 유사함을 의미한다. 이 지표는 벡터의 크기보다는 방향을
기반으로 비교하기 때문에, 문장 길이나 표현 방식이 달라도 실제 의미적 유사성을 평가할 수 있다는 장점이 있다. 벡터스토어에는 임베딩 벡터뿐 아니라
원문 텍스트와 출처도 함께 저장하여 검색 후 근거자료로 활용할 수 있도록 하였다.
사용자가 사고 상황에 대한 질문이나 사고 경위 요약문을 입력하면, 입력 문장 역시 동일한 임베딩 모델을 통해 벡터로 변환된다. 이후 벡터DB에서는
입력 벡터와 모든 문서 벡터 간 유사도를 계산하여, 가장 유사한 사고사례와 KOSHA 가이드 문서를 Top-k 방식으로 검색한다. Top-k 방식은
수천, 수만 개의 문서 중에서 유사도 점수가 가장 높은 k개의 문서를 순위 기반으로 선택하는 기법으로, 의미 기반 검색 시스템에서 표준적으로 사용된다.
이때 유사도 점수는 코사인 유사도 기반으로 측정된다. 본 연구에서는 사고사례 3건과 가이드 문서 3건을 상위 후보로 선정하는 이중검색 구조를 설계하였다.
검색 결과는 유사도 점수 순으로 정렬되어 LLM 프롬프트에 근거자료로 전달된다.
이와 같은 의미 기반 검색 방식은 기존의 단순 키워드 검색과 달리, 문장 구조나 표현의 차이와 관계없이 실제 의미적으로도 가장 유사한 사고사례나 예방대책을
탐색할 수 있다는 장점이 있다. 예를 들어 “고소작업 중 비계 해체 도중 추락”이라는 질의에 대해, 실제 “비계 해체 작업 시 안전난간 미설치로 인한
추락사고”와 같이 표현은 다르지만 맥락적으로 유사한 과거 사고사례를 자동으로 찾아낼 수 있다. 이를 통해 기존 보고서에서 반복적으로 제시되던 추상적
대책이 아니라, 실제 상황에 적합한 구체적이고 실행 가능한 재발방지대책을 생성할 수 있다.
임베딩 및 벡터DB 구축, 그리고 검색 과정은 모두 Python 환경에서 수행되었으며, 검색 효율성과 품질을 위해 벡터DB는 메모리 기반으로 관리하였다.
2.4 LLM 기반 재발방지대책 생성
의미 기반 검색 과정을 통해 질의와 가장 유사한 사고사례 및 KOSHA 가이드 문서가 추출되면, 이들 데이터를 근거자료로 삼아 LLM 프롬프팅에 few-shot
프롬프팅을 위한 맥락으로써 삽입되며, 이후 재발방지대책이 자동으로 생성된다. 본 연구에서는 재발방지대책과 같이 도메인 제약이 강하고 근거 반영이 요구되는
생성 과제의 특성을 고려하여 OpenAI사의 GPT-4o 모델을 사용하였다. 해당 모델은 다중 문서 컨텍스트 처리, 지침 기반 응답 생성, 한국어
장문 텍스트 이해 측면에서 기존 GPT-3.5 계열 대비 안정적인 성능이 보고된 모델이다. 본 연구에서는 향후 연구에서의 확장을 고려하여, 토큰 사용량
대비 비용이 저렴하면서도 우수한 성능을 보이는 모델로 GPT-4o를 선택하여 사용하였다.
Table 1. Few-shot Prompt for Generating Safety Countermeasures
LLM 입력 프롬프트는 Table 1과 같다. 실험에서는 Table 1에서 제시된 단일 프롬프트 템플릿을 모든 테스트에 동일하게 적용하였다. 각 사고사례당 1회의 질의를 입력하였으며, temperature 파라미터와
top-k의 k 역시 고정값으로 설정하여 생성 결과의 변동성을 최소화하였다. example_prompt는 예시 형식 템플릿을 정의하는 것으로써 질문과
답변이 예시로 최종 LLM prompt의 일부로써 참조될 수 있도록 하였다. 이후 이 과정을 통해, few_shot_prompt 내의 프롬프트 안에
LLM의 답변 작성 지침과 주의점, DB로부터 검색된 문서가 예시로써 prefix 뒷부분에 자동적으로 삽입된다. 그 다음 단계에서는 few_shot_prompt와
실제 GPT-4o 모델인 llm 변수, 마지막으로 순수 텍스트만 추출하기 위한 StrOutputParser가 체인으로 연결되어 순차적으로 진행된다.
체인의 invoke 메서드를 실행하여 최종적인 LLM의 답변을 얻을 수 있다.
few-shot 프롬프트 내에는 CSI 사고사례DB에서 추출된 유사사례 예시가 자동 삽입되고, KOSHA 가이드에서 검색된 추가적 예방대책 문서가
<추가적 제안> 섹션에 포함된다.
예를 들어 앞서 언급된 “고소작업 중 비계 해체 도중 추락”이라는 질의가 주어졌을 때, 모델은 유사한 사고사례의 질문-답변 쌍과, KOSHA 가이드의
‘비계 해체 작업’ 예방지침을 참고한다. 이를 통해 실제 현장에 적용할 수 있는 구체적 대책을 생성하게 된다.
생성된 답변은 사고 원인에 대한 부연설명 없이 예방대책만을 중심으로 출력된다. 뿐만 아니라, KOSHA 가이드나 유사 사고사례의 실제 근거가 자연스럽게
녹아들어가 기존의 추상적이고 관행적인 대책과 명확한 차별성을 갖는다.
생성 결과에 대해서는 환각 현상의 최소화를 위해 프롬프트 내에 근거자료 활용과 모호한 표현 제한 등의 조건을 부여하였다. 이렇게 자동 생성된 재발방지대책은
이후 400건의 실제 사고사례에 대해 기존 수기 방식의 대책과 함께 비교하여 평가를 진행하였으며, 평가 절차와 결과는 다음 장에서 상세히 기술한다.
3. 실험 결과
본 연구에서 개발한 LLM 기반 재발방지대책 자동 생성 시스템을 실제 건설 사고사례 데이터에 적용한 결과, 기존의 수기 작성 방식에 비해 명확한 품질
향상과 실효성 증대를 확인할 수 있었다. 전체 사고사례 20,000건 중에서 무작위로 400건을 추출하여 실험에 활용하였다. 이때, 테스트 데이터
400건은 사전에 제외한 데이터로, 테스트 데이터는 벡터DB에 포함되지 않았다. 따라서 평가 질의가 테스트 사례의 사고경위 텍스트로부터 생성되더라도
동일 문서가 검색 후보에 포함되는 문제(data leakage)는 발생하지 않는다.
각 사례별로 사용자의 질의에 대해 시스템이 자동으로 생성한 재발방지대책에 대하여, 기존 사고보고서에 작성된 재발방지대책을 비교 기준(reference)으로
설정하여 평가하였다. 적용 결과, 의미 기반 검색을 통한 유사사례 및 KOSHA 가이드 근거자료의 자동 선택 기능이 모델의 답변 품질을 크게 높이는
것을 확인할 수 있었다. LLM은 실제 보고서에 사용될 수 있는 간략한 답변과 함께, 구체적 조치와 근거를 중심 추가적 제안을 Table 2와 같이 제시하였다.
Table 2. Example Response Outlining the Accident and Its Prevention Measures
자동 생성된 대책의 품질을 평가하기 위해 LLM-as-a-judge (Zheng et al., 2023) 방식을 도입하였다. 해당 방식은 LLM을 이용해 다른 AI 시스템의 결과물을 평가하는 방법론이다. BLEU나 ROUGE와 같은 자동 평가지표는 주로
n-gram 기반의 문장 간 단어 일치 정도를 측정하는 방식으로써, 같은 의미일지라도 표현 방식이 달라질 경우 점수가 낮아지는 한계가 있다. 반면,
LLM-as-a-judge 방식은 문장 전체의 의미와 맥락을 평가할 수 있어, 같은 내용을 다양한 표현으로 생성하더라도 실제 의미가 일치하면 높은
평가가 가능하다. 따라서 본 연구와 같이 자연어로 다양한 대책을 생성하는 과제에서는 LLM-as-a-judge 방식이 단순 단어 일치 기반 평가지표보다
더 실질적인 평가 방법이 될 수 있다. 정확성뿐만 아니라, 최근 연구에서는 생성 결과 자체보다도 근거 자료가 실제로 반영되었는지를 핵심 평가 기준으로
설정하기도 한다(Asai et al., 2023).
이에 따라 본 연구에서는 정확성(correctness)과 근거성(groundedness)의 두 항목을 통해 생성된 답변의 품질을 평가하였다. 정확성은
실제 reference의 내용, 즉 사고사례 보고서에서 전문가가 작성한 재발 방지 대책과 비교하여 일치하는지를 “Y/N” 방식으로 평가하는 것으로
0 혹은 1의 값을 가진다. 근거성은 프롬프트에 근거자료에 실제로 포함된 내용만을 바탕으로 작성되었는지를 평가하는 것으로 1~5점 사이로 평가하는
방식을 사용하였다.
해당 평가 결과, 정확성의 경우 93 %로 나타났으며, 근거성은 평균 4.7/5점을 기록하였다. 여기서 정확성이란, 자동 생성된 재발방지대책이 기존
사고 보고서에 전문가가 작성한 대책과 핵심 조치 수준에서 의미적으로 일치한다고 판단된 비율을 의미한다. 근거성의 경우 실제 RAG를 통해 검색된 문서의
내용을 활용하였는지 판단하는 항목을 뜻한다. 이 경우 내용이 확실하게 검색 결과를 활용한 경우는 5점, 일부만 활용한 경우는 3점, 제대로 활용이
되지 않은 경우는 1점을 부여하였다. 정확성의 경우 ‘reasoning’ 항목을 통해 실제로 왜 그러한 결과로 판단되었는지 설명을 자세히 확인한 결과,
불일치 사례의 대부분은 대책의 방향은 유사하지만 “작업자 교육 강화”, “관리 철저” 등과 같이 구체성이 부족한 일반적 표현에 머무른 경우였다. 그
외에도 RAG의 검색 과정을 통해 유사 사고사례 보고서에서 제공하는 ‘재발방지대책’ 항목의 내용이 마찬가지로 “작업자 재교육”과 같은 경우였다.
이와 같은 적용 결과는, LLM 기반 RAG 시스템이 단순히 문서 자동화에 그치지 않고, 실제 현장 업무에서 요구하는 구체적이고 실효성 있는 안전대책을
자동으로 도출할 수 있음을 보여준다. 이러한 LLM 프레임워크는 기존 보고서 작성자의 주관에 의존하는 대책의 품질 편차를 줄일 수 있을 것이다.
4. 결 론
본 연구에서는 국내 건설현장에서 반복적으로 발생하는 사고 문제를 개선하기 위해, 사고사례 데이터(CSI)와 안전지침(KOSHA 가이드)를 결합한 LLM-RAG 기반 재발방지대책 자동 생성 시스템을 제안하였다. 의미 기반 검색을 통해 사고 상황과 유사한
사례 및 지침 문서를 선별하고, 이를 근거 자료로 활용하여 재발방지대책을 자동으로 생성하는 전체 워크플로우를 구축하였다.
제안된 시스템은 RAG 구축에 이용되지 않은 실제 건설 사고사례를 추가적으로 수집하여, 해당 400건에 적용한 결과, 자동 생성된 대책은 기존 사고보고서에
전문가가 작성한 재발방지대책과 비교하여 평균 93 %의 정확도를 보였으며, 근거 자료 활용 여부를 평가한 근거성 점수는 평균 4.7/5로 나타났다.
이는 본 시스템이 단순한 문서 자동화 수준을 넘어, 실제 현장에서 요구되는 대응 방향과 일관된 수준의 안전대책을 생성할 수 있음을 정량적으로 입증한
결과이다.
특히, 사고사례와 규범적 안전지침을 이중 검색 구조로 통합하고, 생성 과정에서 근거 반영을 제약 조건으로 설정함으로써, 기존 수기 방식에서 발생하던
작성자 의존성과 대책 품질 편차 문제를 완화할 수 있음을 확인하였다. 이러한 결과는 LLM 기반 자동 대책 생성 시스템이 건설 안전관리 실무에서 보고서
작성 보조 및 의사결정 지원 도구로 활용될 수 있는 가능성을 보여준다.
종합적으로, 본 연구는 건설 안전 분야에서 비정형 사고 데이터를 체계적으로 활용하고, 최신 안전지침을 반영한 근거 기반 대책 생성을 가능하게 하는
실질적 프레임워크를 제시하였다는 점에서 의의를 가진다.
Acknowledgements
This work was supported by the Ministry of Science and ICT and by the Korea Institute
of Civil Engineering and Building Technology (KICT) through the Research Operating
Expenses Support Program (Major Project) (“Development of Video-Based AI and Platform
Technology for Preventing Facility Accidents in Ulsan Industrial Complexes(2/3)”).
This paper has been written by modifying and supplementing the KSCE 2025 CONVENTION
paper.
References
Arslan M., Ghanem H., Munawar S., Cruz C. (2024). "A survey on RAG with LLMs", Procedia
Computer Science, Vol. 246, pp. 3781-3790

Asai A., Wu Z., Wang Y., Sil A., Hajishirzi H. (2023). "Self-RAG: Learning to retrieve,
generate, and critique through self-reflection", arXiv preprint

Baek S., Park C. Y., Jung W. (2025). "Automated safety risk management guidance enhanced
by retrieval-augmented large language model", Automation in Construction, Vol. 176

Construction & Economy Research Institute of Korea (CERIK) (2025), Construction trends
briefing, Issue 1019

Construction Safety Information System(CSI) , Construction Safety Accident Case Database

Douze M., Guzhva A., Deng C., Johnson J., Szilvasy G., Mazaré P.-E., Lomeli M., Hosseini
L., Jégou H. (2024). "The Faiss library", arXiv preprint

Guo Y., Li Z., Jin X., Liu Y., Zeng Y., Liu W., Li X., Yang P., Bai L., Guo J., Cheng
X. (2023). "Retrieval-augmented code generation for universal information extraction",
arXiv preprint

Huang L., Yu W., Ma W., Zhong W., Feng Z., Wang H., Chen Q., Peng W., Feng X., Qin
B., Liu T. (2025). "A survey on hallucination in large language models: Principles,
taxonomy, challenges, and open questions", ACM Transactions on Information Systems,
Vol. 43, No. 2, pp. 1-55

Korea Occupational Safety and Health Agency (KOSHA) (2011-2025), Construction Safety
Guide Series

Lee G., Sung Y. (2025). "Development of a construction safety knowledge base and decision-support
framework based on GraphRAG and LLM", Proceedings of the Annual Conference of the
Architectural Institute of Korea, Vol. 45, No. 1, pp. 633-634

Lewis P., Perez E., Piktus A., Petroni F., Karpukhin V., Goyal N., Küttler H., Lewis
M., Yih W., Rocktäschel T., Riedel S., Kiela D. (2020). "Retrieval-augmented generation
for knowledge-intensive NLP tasks", Advances in Neural Information Processing Systems,
Vol. 33, pp. 9459-9474

Qian Y. R., Yu J. H., Lee S. K. (2024). "An automated risk assessment based on GPT
and RAG for small and medium-sized construction sites", Korean Journal of Safety Culture,
Vol. 35, pp. 169-180

Wang I. G., Yu J. H. (2024). "LLM utilization method for identifying construction
site risk factors", Proceedings of the Annual Conference of the Architectural Institute
of Korea, Vol. 44, No. 2, pp. 912-915

Xu R., Yu Y., Ho J., Yang C. (2023). "Weakly-supervised scientific document classification
via retrieval-augmented multi-stage training", Proceedings of the 46th International
ACM SIGIR Conference, pp. 2501-2505

Zheng L., Chiang W. L., Sheng Y., Zhuang S., Wu Z., Zhuang Y., Lin Z., Li Z., Li D.,
Xing E., Zhang H., Gonzalez J., Stoica I. (2023). "Judging LLM-as-a-judge with MT-bench
and Chatbot Arena", Advances in Neural Information Processing Systems, Vol. 36, pp.
46595-46623
