고은별(Koh, Eunbyul)1
선종완(Sun, Jong-Wan)2
박경훈(Park, Kyung-Hoon)3†iD
-
한국건설기술연구원 도로관리통합센터 학생연구원
(Korea Institue of Civil Engineering and Building Technology · ebkoh@kict.re.kr)
-
종신회원 · 한국건설기술연구원 구조연구본부 수석연구원, 공학박사
(Korea Institue of Civil Engineering and Building Technology · jwsun@kict.re.kr)
-
종신회원 · 교신저자 · 한국건설기술연구원 구조연구본부 연구위원, 공학박사
(Korea Institue of Civil Engineering and Building Technology · paul@kict.re.kr)
Copyright 2026 by the Korean Society of Civil Engineers
핵심용어
교량 유지관리, 거대언어모델(LLM), 질의응답 시스템, 환각 억제
Keywords
Bridge management, Large Language Model (LLM), QA system, Hallucination mitigation
1. 서 론
건설 및 토목 분야에서는 사회 기반 시설의 노후화가 가속화됨에 따라, 시설물의 안전성 확보와 효율적인 유지관리가 국가적 과제로 대두되고 있다. 이에
국토교통부는 매년 ‘도로 교량 및 터널 현황조서’를 발행하여 전국 시설물의 제원, 위치, 구조 형식 등 방대한 정형 데이터를 관리하고 있다(MOLIT, 2012-2025). 그러나 데이터의 규모가 매년 급증하고 있어, 기존의 수기 데이터 입력방식과 데이터베이스 기반 조회 방식은 정보 활용을 저해하는 요인이 되고 있다.
복잡한 필터링 조건이나 다차원적인 집계가 필요한 경우, 실무자의 업무 피로도가 증가하고 비전문가의 정보 접근성이 현저히 제한되며, 현장에서 신속한
확인이 어려운 문제가 발생한다.
이러한 문제를 해결하기 위해 최근 인공지능 분야에서 혁신적인 성과를 보이는 대규모 언어모델(Large Language Model, LLM) 기반의
자연어 처리 기술이 주목받고 있으며, 건설 산업 또한 디지털화 및 지능형 혁신에 대한 수요가 증가함에 따라, 핵심 AI 기술인 LLM을 사용한 발전이
이뤄지고 있다(Li et al., 2025;
Kampelopoulos, 2025). LLM은 사용자의 자연어 질의를 이해하고 응답을 생성하는 데 탁월한 능력을 보여왔으며, 이를 데이터베이스 접근에 활용하려는 시도가 증가하고 있다.
Uhm et al.(2025)의 검색 증강 생성(RAG) 기반 건설 안전 정보 시스템, Chen and Bao(2025)의 다중 에이전트 LLM을 활용한 철근 콘크리트 구조물 자동 설계 등 다양한 연구가 진행되고 있다. 또한 Lee et al.(2024)는 LLM을 사용하여 건설프로젝트의 기술사양서를 자동 검토를 효과적으로 해결했다. Wu et al.(2025)는 LLM과 RAG을 사용한 정보 검색 및 질의응답 시스템 RAG4CM을 제안하였고, Top-3정확도 0.924, 답변정확도 0.898을 달성하여
상용 제품보다 높은 정확도를 보였다. 그러나 이러한 기존 연구들은 주로 비정형 텍스트의 검색이나 생성적 설계에 초점을 맞추고 있으며, LLM을 정형
데이터 검색에 직접 적용할 경우 환각(Hallucination) 현상으로 인한 허위 정보 생성, SQL 쿼리 생성 오류, 데이터 접근의 정확성 및
일관성 보장 어려움 등의 한계가 존재한다(Renggli et al., 2025;
Maynez et al., 2020;
Ji et al., 2023;
Tonmoy et al., 2024). 특히 수만 건 이상의 데이터를 포함하는 대규모 정형 데이터베이스에서는 이러한 문제가 더욱 심화되어 실무 적용이 제한적이다. 또한, 다양한 LLM
모델들이 지속적으로 출시되고 있으나, 한국어 건설 도메인의 정형 데이터 질의응답 성능을 체계적으로 비교 평가한 연구는 부족한 실정이다.
이에 본 연구는 LLM의 강점인 자연어 이해 능력과 응답 생성 능력은 유지하되, 정형 데이터 접근의 정확성을 보장하기 위해 하이브리드 접근 방식을
제안한다. LLM은 사용자의 자연어 질의에서 의도와 핵심 파라미터(연도, 지역, 구조 형식 등)를 추출하는 역할만 수행하며, 실제 데이터 검색은 사전에
검증된 구조화된 쿼리 로직을 통해 수행한다. 이를 통해 LLM의 환각 문제를 근본적으로 차단하고 데이터 검색의 정확성과 재현성을 확보하면서, 사용자는
복잡한 쿼리 언어를 학습할 필요 없이 자연어만으로 직관적인 데이터 접근이 가능하다. 나아가, 본 연구는 이러한 하이브리드 시스템을 테스트 베드로 구축하여,
클라우드 기반 상용 모델과 폐쇄망 환경에 구축가능한 로컬 모델 등 총 6종의 최신 LLM 모델을 동일한 조건에서 비교 평가함으로써, 실무 환경과 요구사항에
따른 최적 모델 선정 기준을 제시하고자 한다.
본 연구의 목적은 다음과 같다. 첫째, 교량 현황조서 데이터를 대상으로 LLM 기반 하이브리드 자연어 질의응답 시스템을 개발하고, 데이터 전처리 및
검증된 쿼리 로직 구축을 통해 시스템의 정확성과 실용성을 확보한다. 둘째, 개발된 시스템을 활용하여 클라우드 모델인 GPT-4o 및 GPT-5 (OpenAI, 2024, 2025), Gemini 2.0 Flash (Google DeepMind, 2024)와 로컬 모델인 GPT-OSS 20B (Agarwal et al., 2025), Qwen3 8B (Yang et al., 2025), Gemma3 4B (Gemma Team et al., 2025)의 성능을 정량적으로 비교 분석하고, 각 모델의 질의 의도 파악 능력, 데이터 처리 정확도, 응답 시간 등의 성능 특성을 평가한다. 셋째, 평가 결과를
바탕으로 교량 유지관리 시스템 구축 시 비용, 성능, 보안 등 실무 요구사항에 따른 모델 선정 기준을 제시한다. 다만, 본 연구의 평가는 실무 질의
유형을 대표하는 20개 질의셋을 기반으로 수행되었으며, 모델 성능의 일반화에는 한계가 있을 수 있다.
2. 하이브리드 LLM 질의응답 시스템 개발
2.1 하이브리드 LLM 질의응답 시스템 프레임워크
본 연구에서 구축한 자연어 질의응답 시스템은 LLM의 환각 현상을 억제하기 위해, LLM의 언어 이해 및 추론 능력과 Python의 정확한 연산 능력을
결합한 하이브리드 구조를 채택하였으며, 시스템의 전체 구조는 Fig. 1과 같다.
Fig. 1. Hybrid LLM-based QA System Architecture
시스템은 세 단계의 처리 과정으로 구성된다. 첫 번째 단계에서는 사용자의 자연어 질문을 입력받아 LLM이 질문의 의미를 분석하고 핵심 검색 조건을
JSON 형태로 변환한다. 이 과정에서 질의 유형(일반 조회, 집계, 순위), 필터 조건(연도, 지역, 구조 형식 등), 집계 방식(개수, 최댓값,
평균 등), 정렬 기준 등의 파라미터가 구조화된 형태로 추출된다. LLM이 JSON 출력에 실패할 경우, 키워드 기반 추출 메커니즘이 자동으로 작동하여
시스템의 안정성을 보장한다.
두 번째 단계에서 LLM이 생성한 JSON을 바탕으로 Python 기반 데이터 검색 엔진이 작동한다. JSON의 각 항목은 Pandas DataFrame
연산으로 매핑되며, 필터 조건은 조건부 필터링으로, 집계 항목은 그룹화 및 집계 연산으로, 정렬 항목은 정렬 연산으로 처리된다. 이 과정에서 연도,
지역, 구조 형식, 물리적 수치 조건 등의 순서로 필터링이 수행되며, 최종적으로 집계 및 정렬 연산을 통해 질의 결과가 도출된다.
세 번째 단계에서 연산된 최종 결과 데이터를 LLM에 다시 전달하여 자연어 형식의 답변을 생성한다. LLM은 데이터프레임의 통계 정보(행 개수, 평균값,
최댓값 등)를 참조하여 사용자 친화적인 문장으로 재구성한다 답변 생성 프롬프트는 사용자의 질의 원문, 데이터프레임 연산 결과의 통계 요약 정보, 답변
형식 가이드라인(단위표기, 소수점 처리, 결과 없음 시 안내 문구 등)으로 구성된다. 이러한 구조는 LLM이 직접 수치 연산을 수행하지 않고 Python이
계산한 정확한 결과를 바탕으로 답변을 생성하도록 하여 환각 현상을 억제하고, 데이터 근거 기반의 답변을 제공한다.
일관된 JSON 출력을 보장하기 위해 프롬프트 엔지니어링 기법을 적용하였다. 의도 추출 프롬프트는 (1) 데이터베이스 스키마 정보(컬럼명, 데이터
타입), (2) JSON 출력 형식 템플릿 및 각 필드의 의미와 사용 규칙에 대한 가이드라인, (3) 질의 유형별 반환 예시(Few-shot 예시)로
구성된다. 이를 통해 LLM이 출력 형식을 학습하도록 하였으며, 각 필드의 의미와 사용 규칙을 명확히 정의하였다. 또한 JSON 파싱 후 필수 필드
검증을 수행하여 출력 형식의 일관성을 확보하였으며, 파싱 실패 시 키워드 기반 추출로 전환하여 안정성을 보장하였다. 키워드 기반 추출 메커니즘은 사전
정의된 키워드 사전(연도, 지역명, 구조형식, 집계 함수 키워드 등)과 정규 표현식 기반의 패턴 매칭을 통해 사용자 질의에서 필터 조건을 추출하며,
매칭된 키워드 조합으로부터 질의 유형과 정렬 기준을 결정한다.
예를 들어, “경기도에서 2020년 이후 준공된 PSC 교량 중 가장 긴 것?”이라는 질문은 Fig. 2와 같은 JSON으로 변환된다.
Fig. 2. Intent-Extracted JSON Structure
LLM은 질문에서 의도추출을 한 결과로 JSON 형태로 만들고 쿼리 타입을 통해, 어떤 필터링이 필요한지 구체적으로 확인 후, 연도, 지역, 상부구조
형식 조건으로 필터링한 후 연장 기준 내림차순 정렬을 수행하여 상위 1개 결과를 도출한다. 최종 결과는 LLM에 전달되어 “경기도에서 2020년 이후
준공된 PSC 교량 중 가장 긴 것은 북한강대교로, 연장은 1,074 m입니다.”와 같은 자연어 답변으로 생성된다.
2.2 데이터셋 구축 및 전처리
실험의 도메인 적용성을 높이기 위해 국토교통부에서 제공하는 2012년부터 2025년까지 발간된 ‘도로 교량 및 터널 현황조서’의 엑셀 파일에서 총
474,670개 교량 레코드와 31개의 컬럼 데이터를 수집하였다. 본 데이터는 해당 연도에 신설되거나 폐기된 교량 이외에는 동일 교량이 각 연도에
반복 수록되어 있으며, 각 연도별로 공용 중인 교량의 개소수를 합산한 수치이다.
원본 데이터의 실무적 복잡성을 반영하고 실험의 일관성을 확보하기 위해 전처리 과정을 수행하였다. 먼저, 연도별로 분산된 파일들을 단일 데이터베이스로
통합하고 Python의 Pandas 라이브러리를 활용하여 데이터프레임 환경을 구축하였다. 이 과정에서 연도별로 상이했던 필드명(Column Name)을
통일하여 모든 LLM 모델이 단일화된 스키마를 참조하도록 하였다. 용어 표준화 작업도 중요한 전처리 단계로 수행되었다. LLM이 동일한 구조 형식을
오인식하는 문제를 방지하기 위해 ‘PSCI 거더교’, ‘PSCI형 교’와 같은 유사 용어들을 하나의 표준 용어로 변환하였으며, 검색 오류를 유발할
수 있는 결측치를 정제하여 LLM의 검색 효율성과 답변의 신뢰성을 확보하였다.
2.3 비교 대상 모델
본 실험에서는 인프라 유지관리 시스템 구축 환경을 고려하여, API 접근이 가능한 고성능 클라우드 모델과 폐쇄망 환경에 구축가능한 오픈소스 로컬 모델을
선정하여 성능을 비교하였다. 모든 모델은 동일한 데이터셋과 표준화된 프롬프트 템플릿 환경에서 테스트되었다. 사용한 모델은 Table 1과 같으며, 동일 파라미터 규모의 순수 성능 비교가 아닌, 각 배포 환경에서 현실적으로 운용 가능한 모델 간의 실무적 적합성 평가를 목적으로 한다.
클라우드 기반 모델은 OpenAI의 GPT-4o(gpt-4o-2024-08-06), GPT-5(gpt-5-2025-08-07)와 Google의 Gemini
2.0 Flash를 API 방식으로 사용하였으며, 로컬 기반 모델은 GPT-OSS 20B, Qwen3 8B, Gemma3 4B 모델을 Intel®
CoreTM i7-14700F CPU, NVIDIA GeForce RTX 5070 Ti GPU, 64GB RAM을 갖춘 시스템에서 CUDA 12.8
환경으로 구성하여 사용하였다. 모든 모델에 동일한 프롬프트 템플릿을 적용하였다.
Table 1. Model Classification and Characteristics
|
Category
|
Model Name
|
Features and Environment
|
|
Cloud Model
|
GPT-4o
|
OpenAI API-based commercial model (gpt-4o-2024-08-06). Parameters undisclosed; max
input/output tokens: 128K/16K. Baseline model for evaluating Korean natural language
query processing performance
|
|
GPT-5
|
OpenAI API-based commercial model (gpt-5-2025-08-07). Parameters undisclosed; max
input/output tokens: 1M/32K. Latest model for comparison with GPT-4o architecture
and performance
|
|
Gemini 2.0 Flash
|
Google API-based model (Gemini-2.0-flash). Parameters undisclosed; max input/output
tokens: 1M/8K. Evaluated for fast response speed
|
|
Local Model
|
GPT-OSS 20B
|
Open-source LLM (GPT-OSS 20B, Hugging Face). 20B parameters; no API output token constraints
in local environment. Performance evaluation for on-premise environment and high-performance/large-scale
parameters
|
|
Qwen3 8B
|
Alibaba open-source model (Qwen3-8B, Hugging Face). 8B parameters; no API output token
constraints in local environment. Evaluation of Korean language and reasoning performance
|
|
Gemma3 4B
|
Google lightweight model (Gemma-3-4b-it, Hugging Face). 4B parameters; no API output
token constraints in local environment. Performance evaluation in resource-constrained
environments
|
2.4 평가 지표 및 질의 시나리오
모델 성능 평가를 위해 질의를 복잡도(Query Complexity)에 따라 저(Low), 중(Medium), 고(High) 3단계로 분류하였다.
복잡도는 질의 해석의 난이도를 기준으로, 추출해야 할 파라미터의 개수, 조건 간 논리적 결합도, 의도 파악의 다중성을 종합적으로 고려하여 결정하였다.
저복잡도 질의는 특정 시설물 조회 유형으로, “인천대교의 준공년도는?”, “한강대교 정보는?”과 같이 명확한 개체명이 주어지는 경우이다. LLM은
단일 개체명을 데이터베이스에서 매칭하는 개체명 인식을 수행한다.
복잡도가 증가하면서 중복잡도 질의는 1~2개의 필터 조건과 집계 연산을 요구하게 된다. 이 단계는 집계/통계, 조건 검색, 데이터 품질 카테고리를
포함한다. “연도별 PSC교량 개수는?”, “경기도에 있는 교량 개수는?”과 같이 LLM이 필터 조건을 이해하고 적절한 집계 연산 함수로 연결해야
한다. 특히 데이터 품질 질의는 단일 조건이지만 “준공년도가 없는”과 같은 표현을 NULL 값으로 해석하는 추가적인 의도 파악 단계를 거친다.
가장 복잡한 고복잡도 질의는 순위/정렬과 복합 조건 카테고리로 구성된다. “가장 긴 교량 10개”, “경기도에서 2020년 이후 준공된 PSC 교량
중 가장 긴 교량”과 같이 정렬 기준 이해 또는 3개 이상의 다중 조건이 결합된 경우이다. 이러한 질의는 여러 조건을 논리적으로 일관되게 유지하면서
정렬 기준과 추출 범위를 올바른 파라미터 세트로 변환해야 하므로 가장 높은 수준의 의도 파악 및 정보 통합 능력을 요구한다.
이러한 난이도 분류에 따라 6가지 카테고리의 총 20개 대표 질의셋을 구축하였다(Table 2, Table 3참조).
모델의 정량적 평가는 이진 분류 방식을 적용하여 정확한 답변을 생성한 비율로 정답률을 산출하였다. 각 질의에 대한 정답은 Python Pandas를
이용한 검증 쿼리와 수작업 집계를 교차 검증하여 확정하였다. 복잡도별 정답률을 추가로 계산하여 복잡도 증가에 따른 모델 성능 변화를 분석하였으며,
계산 방식은 Eq. (1)과 같다.
또한 실무 도입 시의 효율성을 분석하기 위해 평균 응답 시간을 측정하였다. 응답시간은 사용자가 질의 입력을 마친 순간부터 최종 자연어 답변 생성까지의
시간을 기준으로 측정하였으며, 클라우드 모델의 경우 API 호출에 따른 네트워크 왕복 시간이 포함된다. 네트워크 지연을 최소화하기 위해 동일한 네트워크
환경에서 각 질의당 3회씩 측정하여 평균값을 사용하였다.
Table 2. Correct Answers by Query Complexity and Type across Models
|
Category
|
Complexity
|
Core Function and Evaluation Purpose
|
|
Specific Facility
|
Low
|
Entity information extraction through proper noun recognition
|
|
Aggregation/Statistics
|
Medium
|
Data grouping and arithmetic operations
|
|
Conditional Search
|
Filtering using logical operators
|
|
Data Quality
|
Missing value and outlier identification capability
|
|
Ranking/Sorting
|
High
|
Whole data comparison and sorting capability
|
|
Multiple Conditions
|
Multiple condition combination and step-by-step reasoning
|
Table 3. Query Test List
|
No.
|
Category
|
Complexity
|
Example Query
|
|
1
|
Specific Facility
|
Low
|
Provide information on Hangang Bridge.
|
|
2
|
Specific Facility
|
Low
|
What is the year of completion of Incheon Bridge?
|
|
3
|
Specific Facility
|
Low
|
What is the total length of Jinwi Bridge?
|
|
4
|
Data Quality
|
Medium
|
How many bridges have a construction year recorded as 8888?
|
|
5
|
Data Quality
|
Medium
|
How many bridges have no recorded construction year?
|
|
6
|
Conditional Search
|
Medium
|
How many bridges are located in Gyeonggi-do?
|
|
7
|
Conditional Search
|
Medium
|
How many bridges were completed after 2020?
|
|
8
|
Conditional Search
|
Medium
|
How many PSC bridges have a total length of 100 m or longer?
|
|
9
|
Conditional Search
|
Medium
|
Which expressway bridges have a height of 20 m or more?
|
|
10
|
Aggregation / Statistics
|
Medium
|
How many PSC bridges are there by year?
|
|
11
|
Aggregation / Statistics
|
Medium
|
How many bridges are there by superstructure type?
|
|
12
|
Aggregation / Statistics
|
Medium
|
How many bridges are there by administrative region?
|
|
13
|
Aggregation / Statistics
|
Medium
|
How many bridges are there by road type?
|
|
14
|
Ranking / Sorting
|
High
|
Which bridge has the longest total length?
|
|
15
|
Ranking / Sorting
|
High
|
What are the top 10 bridges with the longest span length?
|
|
16
|
Ranking / Sorting
|
High
|
What are the top 5 bridges with the highest height?
|
|
17
|
Ranking / Sorting
|
High
|
What are the top 20 bridges with the highest average daily traffic?
|
|
18
|
Multiple Conditions
|
High
|
Among PSC bridges completed after 2020 in Gyeonggi-do, which one is the longest?
|
|
19
|
Multiple Conditions
|
High
|
How many expressway bridges have a span length of 50 m or more?
|
|
20
|
Multiple Conditions
|
High
|
What are the top 5 tallest bridges located in Seoul?
|
3. LLM 모델에 따른 시스템 실험 결과
3.1 모델별 종합 성능 비교
총 20개 질의(복잡도 저 3개, 중 10개, 고 7개)에 대한 6종 모델의 정답률, 평균 응답 시간을 Table 4에 요약하였다. 정답률은 LLM이 사용자의 의도를 정확하게 파악하고 시스템이 올바른 결과값을 도출한 비율을 의미한다.
GPT-4o와 GPT-OSS 20B 모델이 95.0 %의 가장 높은 정답률을 기록하며 최고 성능 그룹을 형성하였다. 특히 GPT-4o는 최고 성능
모델 중 7.61초로 가장 빠른 응답 시간을 보여, 정답률과 실시간 응답성을 모두 고려했을 때 전반적인 우위가 확인되었다. Gemini 2.0 Flash는
7.52초로 전체 모델 중 가장 빠른 응답 속도를 기록했으나, 정답률은 90.0 %에 머물렀다.
로컬 모델 중에서는 GPT-OSS 20B가 95.0 %의 정답률로 가장 높은 성능을 보였으며, Qwen3 8B는 90.0 %의 정답률을 기록하였다.
두 모델의 평균 응답 시간은 각각 38.39초와 37.95초로 유사하였다. Qwen3 8B는 GPT-OSS 20B 대비 모델 크기가 2.5배 작으나,
응답 속도 개선은 관찰되지 않았으며, 정답 개수는 1개 차이를 보였다. 반면 Gemma3 4B 모델은 평균 응답시간 4.38초의 응답시간으로 가장
빠른 응답을 기록하였으나, 20개 질의 중 16개가 오류로 실패하였다.
다만 전체 평균 정답률은 모델 간 차이를 완전히 반영하지 못하는 한계가 있다. 질의의 복잡도에 따라 모델별 성능 편차가 크게 나타났으며, 특히 고복잡도
질의(순위/정렬, 복합 조건)에서는 로컬 모델인 GPT-OSS 20B가 100 %를 기록한 반면, 클라우드 모델들은 상대적으로 낮은 성능을 보이는
등 질의 유형에 따른 성능 차이가 관찰되었다. 이에 대한 상세 분석은 3.2절에서 제시하였다.
전반적으로 클라우드 기반 LLM 모델이 로컬 기반 모델에 비해 응답 속도가 빠른 것으로 나타났다. 반면 정답률은 배포 환경(클라우드/로컬)의 차이보다는
개별 모델의 자연어 이해 능력 및 구조화된 출력 생성 능력에 따라 더 크게 좌우하였다.
3.2 질의 유형별 성능 분석
질의 유형을 특정 시설물 조회(3개), 집계/통계(4개), 조건 검색(4개), 데이터 품질(2개), 순위/정렬(4개), 복합 조건(3개)로 구분하였으며,
질의의 복잡도에 따라 저(3개), 중(10개), 고(7개) 3단계로 분류하여 유형별로 모델 성능을 분석하였다. 정답률은 모델이 질의에 대해 의미에
따라 올바른 결과를 생성한 비율로 정의하며, 토큰 초과, 시스템오류, 응답 실패 등 모든 오류 사례는 실패로 간주하였다. Table 5는 복잡도 및 질의 유형별 정답률을 통합하여 제시하였다.
저복잡도 질의는 특정 시설물 질의에 관한 유형으로 GPT-4o, Gemini 2.0 Flash, Qwen3 8B가 100 %의 정답률을 기록하였다.
반면 GPT-5와 GPT-OSS 20B는 66.7 %, Gemma3 4B는 0 %의 정답률을 나타냈다. 해당 실패 사례는 시설물명 표기 불일치로 인한
개체 인식 오류가 주된 원인으로 분석되었다.
중복잡도 질의는 집계/통계, 조건 검색, 데이터 품질 유형에 관한 질의로 GPT-4o, Gemini 2.0 Flash, GPT-OSS 20B가 100
%의 정답률을 달성하였다. GPT-5와 Qwen3 8B는 90.0 % 정답률을 보였는데, GPT-5의 경우 질의 내 조건을 명확히 판별하지 못해 의도
추출에 실패했다. Gemma3 4B는 40.0 %의 정답률에 그쳤으며, 이는 질의 내 핵심 키워드 및 의도 추출 미흡, 또는 데이터 매핑 실패에 따른
결과로 분석된다.
고복잡도 질의는 순위/정렬과 복합 조건 유형에 관한 유형으로 로컬 모델인 GPT-OSS 20B가 100 %의 정답률로 가장 우수한 성능을 기록하였다.
GPT-4o와 Qwen3 8B는 85.7 %의 정답률을 나타냈는데, GPT-4o는 대용량 순위 질의 처리 시 API 토큰 제한 초과로 인해 응답에
실패하였으며, Qwen3 8B는 조건을 만족하는 데이터가 존재함에도 0건으로 반환하는 오답 사례가 나왔다. GPT-5와 Gemini 2.0 Flash는
71.4 %의 정답률을 기록하였다. 두 모델 모두 복합 조건에서는 100 %의 정확도를 보였으나, 순위/정렬 유형에서 API 토큰 제한 초과 오류가
공통으로 발생하여 성능 하락의 주요 원인이 되었다.
모델별 정답률을 질의 복잡도 기준으로 비교한 결과, 질의 복잡도가 증가할수록 모델 간 성능 편차가 확대되는 경향이 확인되었다. 저복잡도 질의에서는
특정 키워드 인식 단계의 차이가 관찰되었으며, 중복잡도부터는 모델별 의도 파악 역량에 따른 성능 분별력이 강화되었다. 특히 고복잡도의 순위/정렬 유형에서는
클라우드 기반 모델이 대용량 데이터 처리 과정에서 토큰 제한 문제로 실패하는 경향이 두드러진 반면, 로컬 환경에서 실행된 모델은 토큰 제한의 영향
없이 안정적으로 응답을 수행하였다.
Table 4. Overall Model Performance Summary for 20 Questions
|
Category
|
Model Name
|
Accuracy (%)
|
Avg. Resp. Time (sec)
|
Correct Answers
|
|
Cloud Model
|
GPT-4o
|
95
|
7.61
|
19
|
|
GPT-5
|
80
|
33.72
|
16
|
|
Gemini 2.0 Flash
|
90
|
7.52
|
18
|
|
Local Model
|
GPT-OSS 20B
|
95
|
38.39
|
19
|
|
Qwen3 8B
|
90
|
37.95
|
18
|
|
Gemma3 4B
|
20
|
4.38
|
4
|
Note : Avg. Resp. Time = Average Response Time; Correct Answers indicate the number
of correct responses out of 20 test queries.
Table 5. Model Accuracy by Query Complexity and Type
|
Complexity
|
Query Type
|
# of Queries
|
M 1
|
M 2
|
M 3
|
M 4
|
M 5
|
M 6
|
|
Low
|
Specific Facility
|
3
|
3
|
2
|
3
|
2
|
3
|
0
|
|
Medium
|
Aggregation/Statistics
|
4
|
4
|
4
|
4
|
4
|
4
|
3
|
|
Conditional Search
|
4
|
4
|
3
|
4
|
4
|
4
|
0
|
|
Data Quality
|
2
|
2
|
2
|
2
|
2
|
1
|
1
|
|
High
|
Ranking/Sorting
|
4
|
3
|
2
|
2
|
4
|
4
|
0
|
|
Multiple Conditions
|
3
|
3
|
3
|
3
|
3
|
2
|
0
|
|
Average Accuracy by Complexity (%)
|
|
Low
|
3
|
100
|
66.7
|
100
|
66.7
|
100
|
0
|
|
Medium
|
10
|
100
|
90
|
100
|
100
|
90
|
40
|
|
High
|
7
|
85.7
|
71.4
|
71.4
|
100
|
85.7
|
0
|
|
Total Accuracy (%)
|
95
|
80
|
90
|
95
|
90
|
20
|
M 1: GPT-4o, M 4: GPT-OSS 20B, M 2: GPT-5, M 5: Qwen3 8B, M 3: Gemini 2.0 Flash, M
6: Gemma3 4B
3.3 오류 발생 현황 및 분석
실험 결과 발생한 총 26건의 실패 사례를 분석한 결과, 오류의 원인은 크게 기술적 제약(API 토큰 제한 초과, 응답실패)과 논리적 한계(시설물명
인식 오류, 의도 추출 및 논리 오류)로 구분되었다. 모델별 오류 유형의 분포는 Table 6와 같다.
API 토큰 제한 초과(4건) 오류는 클라우드 기반 고성능 모델(GPT-4o, GPT-5, Gemini 2.0)에서만 공통적으로 관찰되었다. 이는
순위/정렬 질의와 같이 대량의 행 데이터를 처리하고 출력해야 하는 과업에서, 모델의 최대 출력 토큰 길이를 초과함에 따라 응답이 중단된 사례이다.
반면, 로컬 환경에서 실행된 모델들은 이러한 시스템적 제약 없이 모든 순위 질의에 성공적으로 응답하여 대용량 데이터 처리 환경에서의 상대적 강점을
나타냈다.
응답 실패(6건)는 Gemma3 4B에서만 발생하였으며, 모델이 질의 자체를 해석하지 못하고 비정상적인 응답을 출력한 사례이다. 이는 질의 처리 과정에서
구조화된 출력 생성 실패로 인해 발생한 것으로 분석되며, 해당 모델이 본 연구의 구조화된 출력 요구사항과 부합하지 않음을 나타낸다.
시설물명 인식 오류(4건)는 저복잡도 질의에서 주로 발생하였다. 시설물 명칭이 데이터베이스 내 필드값과 완벽히 일치하지 않거나, 질의 내 다른 단어가
개체명 인식에 간섭을 일으켜 조회가 실패한 경우이다. GPT-OSS 20B와 GPT-5 등 고성능 모델에서도 각 1건씩 발생한 점을 고려할 때, 이는
모델 규모보다 도메인 특화 용어에 대한 사전 학습, 데이터 전처리 및 표준화의 중요성을 보여준다.
의도 추출 및 논리 오류(12건)가 가장 높은 빈도로 발생하였다. 이는 질의 내 필터링 조건을 파라미터로 적절히 변환하지 못하거나, 데이터 간의 논리적
선후 관계를 잘못 해석한 경우이다. 특히 Gemma3 4B에서 8건이 집중되었으며, 이는 해당 모델이 복잡한 자연어 질의를 구조화된 데이터 쿼리로
매핑하는 데 한계를 가지는 것을 나타낸다. GPT-5와 Qwen3 8B에서도 일부 복합 조건 및 데이터 품질 질의에서 조건을 누락하거나 데이터가 존재함에도
0건으로 응답하는 논리적 오류가 확인되었다.
Table 6. Error Distribution by Model
|
Category
|
Model Name
|
Technical Constraints
|
Logical Limitations
|
Total Failures
|
|
API Token Limit Exceeded
|
Response Failure
|
Facility Name Recognition Error
|
Intent Extraction and Logic Error
|
|
Cloud Model
|
GPT-4o
|
1
|
0
|
0
|
0
|
1
|
|
GPT-5
|
1
|
0
|
1
|
2
|
4
|
|
Gemini 2.0 Flash
|
2
|
0
|
0
|
0
|
2
|
|
Local Model
|
GPT-OSS 20B
|
0
|
0
|
1
|
0
|
1
|
|
Qwen3 8B
|
0
|
0
|
0
|
2
|
2
|
|
Gemma3 4B
|
0
|
6
|
2
|
8
|
16
|
|
Total Counts
|
4
|
6
|
4
|
12
|
26
|
4. 고 찰
4.1 인프라 관리 환경별 모델 적합성
응답 속도와 정답률의 상관관계를 통해 배포 환경에 따른 모델 적합성이 뚜렷하게 구분되었다(Fig. 3참고). 모델의 실무 적합성을 평가하기 위해 정확도 80 %와 응답 시간 20초를 임계값으로 설정하여 사분면 분석을 수행하였다. 이는 지식 기반 시스템의
최소 정확도 요구사항과 대화형 인터페이스의 사용자 허용 시간을 고려한 기준이다. 클라우드 모델(GPT-4o, Gemini 2.0 Flash)은 평균
7.61초 내외의 응답 속도와 90 % 이상의 정답률을 기록하여 Z1(실시간 서비스 최적화) 영역에 위치하며, 즉각적인 응답이 요구되는 질의응답 시스템에
적합하다. 로컬 모델 중 GPT-OSS 20B는 95 %의 정답률로 클라우드 모델과 동등한 정확도를 달성하였으나, 38.39초의 응답시간은 임계값을
초과하므로 Z2(정확도 중심 성능) 영역에 해당한다. 따라서 해당 모델은 빠른 응답 시간 보다 데이터 보안과 정확도가 우선시 되는 폐쇄망 환경에서
적합하다.
Qwen3 8B와 GPT-OSS 20B는 모델 크기가 2.5배 차이임에도 응답 시간이 유사하게 측정되어, 로컬 환경에서는 모델 크기보다 하드웨어 메모리
대역폭이 주요 병목지점으로 작용함을 나타낸다. 반면 Gemma3 4B는 20 %의 정답률로 Z3(효율 중심 성능) 영역에 위치하여 자연어를 구조화된
쿼리로 변환하는 데 한계를 보였다. 따라서 구조화된 출력이 요구되는 질의응답 시스템에는 최소 8B 이상의 모델이 권장된다.
Fig. 3. Performance Quad-Analysis of LLMs by Accuracy and Response Time (Z1: Real-time Service Optimized, Z2: Accuracy-focused Performance, Z3: Efficiency-oriented Performance, Z4: Inefficient Zone)
4.2 질의 복잡도 및 유형별 성능 특성
모델 유형과 질의 복잡도에 따른 정답 개수를 분석한 결과(Fig. 4), 저복잡도(L) 및 집계/통계(M1) 질의에서는 대부분의 모델이 높은 정답률을 보였으나, 고복잡도 질의(H1, H2)에서는 뚜렷한 차이가 나타났다.
순위/정렬(H1) 질의에서 클라우드 모델(GPT-4o, Gemini 2.0 Flash)은 낮은 정답률을 기록한 반면, 로컬 모델(GPT-OSS 20B,
Qwen3 8B)은 100 %를 달성하였다. 이는 순위 질의가 대규모 데이터셋의 정렬 결과를 출력해야 하므로 토큰량 사용량이 증가하여 클라우드 API의
최대 출력 토큰 제한에 도달했기 때문이다. 복합 조건(H2) 질의에서는 Qwen3 8B가 66.7 %의 정답률을 기록하였는데, 지역, 기간, 구조
형식 등 다중 파라미터를 동시에 처리하는 과정에서 일부 조건이 누락되는 현상이 관찰되었다. 데이터 품질(M3) 질의에서는 GPT-4o, GPT-5,
Gemini 2.0 Flash, GPT-OSS 20B가 결측치 및 이상치를 논리적 예외 조건으로 올바르게 처리하였으나, Qwen3 8B와 Gemma3
4B는 50 %의 정답률을 기록하였다. 이는 해당 값을 처리하는 것을 도메인 규칙을 인식하지 못한 것에 기인한다.
Fig. 4. Number of Correct Answers by Model Category and Question Complexity: (a) Cloud Models, (b) Local Models (L: Specific Facility, M1: Aggregation/Statistics, M2: Conditional Search, M3: Data Quality, H1: Ranking/Sorting, H2: Multiple Conditions)
4.3 오류 분석 및 시스템 고도화 방향
총 120건의 질의 중 26건의 실패 사례를 분석한 결과, 제안 시스템은 LLM의 환각 현상을 효과적으로 억제하였으며, 오류는 기술적 제약과 논리적
한계로 구분되었다(Table 6 참고). 본 연구에서 제안한 LLM-Python 하이브리드 구조는 주어진 데이터 내에서만 답변을 생성하였으며, 수치 연산 오류를 완전히 제거하였다.
전체 26건의 오류 중 수치 계산 오류는 단 한 건도 발생하지 않았으며, 이는 Python이 모든 집계, 통계, 정렬 연산을 담당하도록 설계한 결과이다.
실패 사례 결과, 기술적 제약에는 API 토큰 제한 초과(4건, 15 %)와 응답 실패(6건, 23 %)가 포함되며, 논리적 한계에는 시설물명 인식
오류(4건, 15 %)와 의도 추출 및 논리 오류(12건, 46 %)가 해당한다.
API 토큰 제한 오류는 클라우드 모델에서만 발생하였으며(GPT-4o 1건, GPT-5 1건, Gemini 2.0 Flash 2건), 대량의 결과를
반환하는 질의 처리 시 전체 데이터프레임을 LLM에 전달하는 과정에서 최대 출력 토큰 제한에 도달했다. 이는 클라우드 API의 최대 출력 토큰 제한에
기인한 것으로, 대규모 결과 집합을 요구하는 질의에서는 결과 요약 또는 페이지네이션 전략이 필요함을 시사한다. 응답 실패는 Gemma3 4B에서만
6건이 집중 발생하였으며, 이는 제안한 JSON 구조화 요구사항을 충족하지 못하는 모델의 한계를 보여준다. 반면 8B 이상 모델에서는 응답 실패가
전혀 발생하지 않아, 본 시스템이 적절한 모델 선택 시 안정적으로 작동함을 확인하였다.
시설물명 인식 오류(4건)는 모델 크기와 무관하게 발생하였으며, “한강대교”를 질의했을 때 “한강교”로 인식되어 매칭하지 못하는 등 도메인 특화 지식의
부족에 기인한다. 이는 LLM이 언어 및 도메인별 특화 지식의 필요성을 보여주며, 향후 시스템 확장을 통해 해결가능한 문제이다. 의도 추출 및 논리
오류는 총 12건으로 가장 빈번하게 발생하였으며, GPT-5 2건, Qwen3 8B 2건, Gemma3 4B에서 8건이 집중되었다. “시도별 교량
개수”질의에서 “시도별”을 시설물명으로 오인식하는 등 문맥 이해의 한계를 보였다. 이는 자연어를 구조화된 쿼리로 변환하는 과정에서 문맥 이해 및 논리적
추론 능력의 한계로 적절한 모델 선택 및 도메인 특화 프롬프트 및 시스템 설계가 필요함을 보인다.
이러한 오류 패턴 분석을 통해 교량 인프라 질의응답 시스템을 위한 모델 선택 기준을 다음과 같이 제시한다: (1) 시설물명 정규화 모듈 개발 및 도메인
특화 용어 사전 구축을 통한 인식 정확도 향상, (2) 대량 결과 처리를 위한 요약 전략 또는 페이지네이션 메커니즘 도입, (3) 복합 조건 질의의
단계적 검증 로직 강화, (4) Few-shot 예시 확대를 통한 구조화된 출력 안정성 향상. 분석된 모든 오류가 Python 연산 단계가 아닌 자연어
처리 단계에서 발생하였다. 이는 본 연구가 제안한 하이브리드 아키텍처의 핵심 설계 원칙인 연산과 해석의 분리가 효과적으로 작동하고 있음을 입증한다.
5. 결 론
본 연구는 토목 인프라 분야의 대규모 유지관리 데이터 활용 효율성 제고를 위해, LLM 기반 자연어 질의응답 시스템을 개발하고 실무 적용 가능성을
검증하였다. 제안된 하이브리드 구조는 LLM의 자연어 이해 능력과 Python의 정확한 연산 능력을 분리함으로써 LLM의 환각현상을 억제하도록 구현되었다.
다양한 LLM 모델에 따른 시스템 성능평가를 위하여 국토교통부의 2012년부터 2025년까지 교량 데이터를 활용하여 6종의 모델 성능을 비교 분석하였다.
LLM 모델별 성능 평가에서 GPT-4o와 GPT-OSS 20B가 95 %의 정답률로 가장 우수한 성능을 기록하였다. 특히 GPT-4o는 7.61초의
빠른 응답 시간으로 실시간 대민 서비스 환경에 적합한 반면, GPT-OSS 20B는 GPT-4o에 비해 느린 응답속도를 나타냈으나 고복잡도 질의에서
100 %의 정답률을 달성하여 보안이 중시되는 폐쇄망 환경에서도 고성능 시스템 구축이 가능함을 확인하였다. 다만, 로컬 모델 실험은 단일 GPU 환경에서
수행되어 20B를 초과하는 오픈 소스 모델은 평가에 포함되지 않은 한계가 있다.
질의 복잡도 분석을 통해 모델 성능의 차별적 특성을 확인하였다. 저복잡도 및 중복잡도 질의에서는 대다수 모델이 높은 정확도를 보였지만, 고복잡도 질의에서는
모델별 강점과 한계가 뚜렷하게 나타났다. 특히 순위/정렬 유형에서 클라우드 모델은 API 토큰 제한으로 인한 응답 실패가 관찰됐지만, 로컬 모델은
시스템 자원 제약이 적어 안정적인 처리가 가능하였다. 이는 대규모 인프라 데이터를 다루는 시스템 설계 시 배포 환경에 따른 기술적 제약을 충분히 고려해야
함을 보여준다.
오류 분석 결과, 의도 추출 및 논리 오류가 가장 높은 빈도로 발생하였으며, 이는 자연어를 구조화된 JSON 출력으로 변환하는 과정이 주요 오류 발생
지점임을 나타낸다. 또한 시설물명 인식 오류는 모델 규모와 무관하게 발생하여, LLM의 일반 지식과 도메인 특화 데이터베이스 간의 간극이 존재함을
확인하였다. 이러한 결과는 실적용 모델 선정 시 정답률뿐만 아니라 구조화된 출력 생성 능력, 데이터 강건성, 사용 언어에 대한 학습 정도를 종합적으로
평가하는 사전 검증 절차가 필요할 것으로 판단된다.
이러한 분석 결과에 근거하여, 클라우드 기반의 GPT-4o 모델을 적용하여 실무 활용성을 고려한 시스템 구축하였으며, 사용자를 대상으로 다양한 질의에
대한 신뢰성 확보를 위한 과정을 진행 중이다. 향후 교량 데이터의 범위와 터널, 항만 등 타 인프라 시설물 정보 DB에 대한 확대 검증을 수행하고,
지속적으로 업데이트되는 최신 LLM 모델에 대한 추적 평가를 수행하고자 한다. 본 연구가 향후 AI 기반 지능형 인프라 관리시스템 구축에 기여할 수
있을 것으로 판단된다.
Acknowledgements
This work was supported by the Ministry of Land, Infrastructure and Transport under
the Bridge Management System (BMS) operation project.
References
Agarwal, S., Ahmad, L., Ai, J., Altman, S., Applebaum, A., Arbus, E., Arora, R. K.,
Bai, Y., Baker, B., Bao, H., Barak, B. (2025). GPT-oss-120b & GPT-oss-20b model card,
arXiv preprint.

Chen, J., Bao, Y. (2025). Multi-agent large language model framework for code-compliant
automated design of reinforced concrete structures, Automation in Construction, 177.

Kamath, A., Ferret, J., Pathak, S., Vieillard, N., Merhej, R., Perrin, S., Matejovicova,
T., Ramé, A., Rivière, M., Rouillard, L. (2025). Gemma 3 technical report, arXiv preprint.

Google DeepMind (2024). Gemini 2.0: Our most capable and versatile model yet, Google
Blog Available at: https://blog.google/technology/ai/google-gemini-ai-update-december-2024/
(Accessed: April 6, 2025).

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto,
A., An, D., Fung, P. (2023). Survey of hallucination in natural language generation,
ACM Computing Surveys, 55(12), 1-38.

Kampelopoulos, D., Tsanousa, A., Vrochidis, S., Kompatsiaris, I. (2025). A review
of LLMs and their applications in the architecture, engineering and construction industry,
Artificial Intelligence Review, 58(8).

Lee, J., Jung, W., Baek, S. (2024). In-house knowledge management using a large language
model: Focusing on technical specification documents review, Applied Sciences, 14(5).

Li, C., Lu, S., Wang, M., Hu, Y. (2025). Overview of large language models in construction
industry applications, , 298-302.

Maynez, J., Narayan, S., Bohnet, B., McDonald, R. (2020). On faithfulness and factuality
in abstractive summarization, arXiv preprint.

Ministry of Land, Infrastructure and Transport MOLIT (2012-2025). Road bridge and
tunnel statistics, Ministry of Land, Infrastructure and Transport, Republic of Korea
(in Korean).

OpenAI (2024). GPT-4o system card, arXiv preprint.

OpenAI (2025). Introducing GPT-5, OpenAI Available at: https://openai.com/index/introducing-gpt-5/
(Accessed: April 6, 2025).

Renggli, C., Ilyas, I. F., and Rekatsinas, T. (2025). Fundamental challenges in evaluating
Text2SQL solutions and detecting their limitations, arXiv preprint.

Tonmoy, S. M T. I., Zaman, S. M., Jain, V., Rani, A., Rawte, V., Chadha, A., and Das,
A. (2024). A comprehensive survey of hallucination mitigation techniques in large
language models, arXiv preprint.

Uhm, M., Kim, J., Ahn, S., Jeong, H., and Kim, H. (2025). Effectiveness of retrieval
augmented generation-based large language models for generating construction safety
information, Automation in Construction, 170.

Wu, C., Ding, W., Jin, Q., Jiang, J., Jiang, R., Xiao, Q., Liao, L., and Li, X. (2025).
Retrieval augmented generation-driven information retrieval and question answering
in construction management, Advanced Engineering Informatics, 65.

Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Gao, C., Huang,
C., Lv, C., and Zheng, C. (2025). Qwen3 technical report, arXiv preprint.
