Mobile QR Code QR CODE : Journal of the Korean Society of Civil Engineers

Journal of the Korean Society of Civil Engineers

ISO Journal TitleKSCE J. Civ. Environ. Eng. Res.

Open Access, Bi-monthly

Main Menu

Journal Search

[

Information Technology

]

KSCE Journal of Civil and Environmental Engineering Research

대한토목학회 Vol. 46, No. 3, p.259-268

ISSN (print) :

1015-6348

ISSN (online) :

2799-9629

Received : 27 February 2026Revised : 6 April 2026Accepted : 8 April 2026

DOI :

https://doi.org/10.12652/Ksce.2026.46.3.0259

교량 유지관리를 위한 하이브리드 LLM 질의 응답 시스템의 성능 분석

Performance Validation of a Hybrid LLM-Based QA System for Bridge Management

고은별(Koh, Eunbyul)¹ 선종완(Sun, Jong-Wan)² 박경훈(Park, Kyung-Hoon)³^†iD

한국건설기술연구원 도로관리통합센터 학생연구원 (Korea Institue of Civil Engineering and Building Technology · ebkoh@kict.re.kr)
종신회원 · 한국건설기술연구원 구조연구본부 수석연구원, 공학박사 (Korea Institue of Civil Engineering and Building Technology · jwsun@kict.re.kr)
종신회원 · 교신저자 · 한국건설기술연구원 구조연구본부 연구위원, 공학박사 (Korea Institue of Civil Engineering and Building Technology · paul@kict.re.kr)

† :

Corresponding Author

License :

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

ABSTRACT

With the rapid surge in bridge management data, the limitations of traditional database query methods in terms of accessibility and efficiency have become apparent. This study develops a hybrid question-answering (QA) system that integrates the natural language understanding of Large Language Models (LLMs) with the computational precision of Python, and validates its effectiveness in suppressing hallucinations. Using South Korea's bridge management data from 2012 to 2025 (474,670 records), we systematically evaluated six models, including cloud-based (GPT-4o, GPT-5, Gemini 2.0 Flash) and local open-source models (GPT-OSS 20B, Qwen3 8B, Gemma3 4B). Experiments were conducted across 20 questions categorized into six types and three levels of complexity. The results showed that GPT-4o and GPT-OSS 20B achieved the highest accuracy of 95 %. While GPT-4o exhibited superior real-time responsiveness (7.61 s), suitable for real-time services, GPT-OSS 20B demonstrated stable performance in large-scale data ranking queries without API token constraints. Error analysis revealed that intent extraction errors (46 %) were the primary cause of failure, and cloud models specifically faced token limit issues (15 %). This study proves that a hybrid architecture separating natural language understanding from numerical computation effectively suppresses hallucinations, and provides model selection criteria based on practical requirements such as cost, performance, and security for bridge management system implementation.

초록

최근 교량 유지관리 데이터의 급증으로 인해 기존 데이터베이스 조회 방식의 접근성 및 효율성 한계가 대두되고 있다. 본 연구는 대규모 언어모델(LLM)의 자연어 이해 능력과 Python의 정확한 연산 기능을 결합한 하이브리드 질의응답 시스템을 개발하고, 이를 통해 LLM의 고질적인 환각 현상 억제 효과를 검증하였다. 국토교통부의 도로 교량 현황 데이터(2012~2025년, 총 474,670건)를 활용하여 클라우드 모델(GPT-4o, GPT-5, Gemini 2.0 Flash)과 로컬 오픈소스 모델(GPT-OSS 20B, Qwen3 8B, Gemma3 4B) 총 6종을 비교 평가하였다. 실험은 질의 복잡도에 따라 6개 유형, 3단계 복잡도의 총 20개 질의셋을 구성하여 수행되었다. 실험 결과, GPT-4o와 GPT-OSS 20B가 95 %의 최고 정답률을 기록하였다. GPT-4o는 평균 7.61초의 빠른 응답성으로 실시간 서비스에 적합한 반면, GPT-OSS 20B는 API 토큰 제한 없이 대규모 데이터 순위 질의에서 안정적인 성능을 입증하였다. 오류 분석 결과, 주요 실패 원인은 의도 추출 오류(46 %)였으며, 클라우드 모델의 경우 토큰 제한 초과(15 %) 문제가 관찰되었다. 본 연구는 자연어 이해와 수치 연산을 분리한 하이브리드 구조가 환각 억제에 효과적임을 입증하였으며, 교량 유지관리 시스템 구축 시 비용, 성능, 보안 등 실무 요구사항에 따른 모델 선정 기준을 제시하였다.

핵심용어

교량 유지관리, 거대언어모델(LLM), 질의응답 시스템, 환각 억제

Keywords

Bridge management, Large Language Model (LLM), QA system, Hallucination mitigation

1. 서 론

건설 및 토목 분야에서는 사회 기반 시설의 노후화가 가속화됨에 따라, 시설물의 안전성 확보와 효율적인 유지관리가 국가적 과제로 대두되고 있다. 이에 국토교통부는 매년 ‘도로 교량 및 터널 현황조서’를 발행하여 전국 시설물의 제원, 위치, 구조 형식 등 방대한 정형 데이터를 관리하고 있다^{(MOLIT, 2012-2025)}. 그러나 데이터의 규모가 매년 급증하고 있어, 기존의 수기 데이터 입력방식과 데이터베이스 기반 조회 방식은 정보 활용을 저해하는 요인이 되고 있다. 복잡한 필터링 조건이나 다차원적인 집계가 필요한 경우, 실무자의 업무 피로도가 증가하고 비전문가의 정보 접근성이 현저히 제한되며, 현장에서 신속한 확인이 어려운 문제가 발생한다.

이러한 문제를 해결하기 위해 최근 인공지능 분야에서 혁신적인 성과를 보이는 대규모 언어모델(Large Language Model, LLM) 기반의 자연어 처리 기술이 주목받고 있으며, 건설 산업 또한 디지털화 및 지능형 혁신에 대한 수요가 증가함에 따라, 핵심 AI 기술인 LLM을 사용한 발전이 이뤄지고 있다^{(Li et al., 2025;} ^{Kampelopoulos, 2025)}. LLM은 사용자의 자연어 질의를 이해하고 응답을 생성하는 데 탁월한 능력을 보여왔으며, 이를 데이터베이스 접근에 활용하려는 시도가 증가하고 있다. ^{Uhm et al.(2025)}의 검색 증강 생성(RAG) 기반 건설 안전 정보 시스템, ^{Chen and Bao(2025)}의 다중 에이전트 LLM을 활용한 철근 콘크리트 구조물 자동 설계 등 다양한 연구가 진행되고 있다. 또한 ^{Lee et al.(2024)}는 LLM을 사용하여 건설프로젝트의 기술사양서를 자동 검토를 효과적으로 해결했다. ^{Wu et al.(2025)}는 LLM과 RAG을 사용한 정보 검색 및 질의응답 시스템 RAG4CM을 제안하였고, Top-3정확도 0.924, 답변정확도 0.898을 달성하여 상용 제품보다 높은 정확도를 보였다. 그러나 이러한 기존 연구들은 주로 비정형 텍스트의 검색이나 생성적 설계에 초점을 맞추고 있으며, LLM을 정형 데이터 검색에 직접 적용할 경우 환각(Hallucination) 현상으로 인한 허위 정보 생성, SQL 쿼리 생성 오류, 데이터 접근의 정확성 및 일관성 보장 어려움 등의 한계가 존재한다^{(Renggli et al., 2025;} ^{Maynez et al., 2020;} ^{Ji et al., 2023;} ^{Tonmoy et al., 2024)}. 특히 수만 건 이상의 데이터를 포함하는 대규모 정형 데이터베이스에서는 이러한 문제가 더욱 심화되어 실무 적용이 제한적이다. 또한, 다양한 LLM 모델들이 지속적으로 출시되고 있으나, 한국어 건설 도메인의 정형 데이터 질의응답 성능을 체계적으로 비교 평가한 연구는 부족한 실정이다.

이에 본 연구는 LLM의 강점인 자연어 이해 능력과 응답 생성 능력은 유지하되, 정형 데이터 접근의 정확성을 보장하기 위해 하이브리드 접근 방식을 제안한다. LLM은 사용자의 자연어 질의에서 의도와 핵심 파라미터(연도, 지역, 구조 형식 등)를 추출하는 역할만 수행하며, 실제 데이터 검색은 사전에 검증된 구조화된 쿼리 로직을 통해 수행한다. 이를 통해 LLM의 환각 문제를 근본적으로 차단하고 데이터 검색의 정확성과 재현성을 확보하면서, 사용자는 복잡한 쿼리 언어를 학습할 필요 없이 자연어만으로 직관적인 데이터 접근이 가능하다. 나아가, 본 연구는 이러한 하이브리드 시스템을 테스트 베드로 구축하여, 클라우드 기반 상용 모델과 폐쇄망 환경에 구축가능한 로컬 모델 등 총 6종의 최신 LLM 모델을 동일한 조건에서 비교 평가함으로써, 실무 환경과 요구사항에 따른 최적 모델 선정 기준을 제시하고자 한다.

본 연구의 목적은 다음과 같다. 첫째, 교량 현황조서 데이터를 대상으로 LLM 기반 하이브리드 자연어 질의응답 시스템을 개발하고, 데이터 전처리 및 검증된 쿼리 로직 구축을 통해 시스템의 정확성과 실용성을 확보한다. 둘째, 개발된 시스템을 활용하여 클라우드 모델인 GPT-4o 및 GPT-5 ^{(OpenAI, 2024}, ²⁰²⁵⁾, Gemini 2.0 Flash ^{(Google DeepMind, 2024)}와 로컬 모델인 GPT-OSS 20B ^{(Agarwal et al., 2025)}, Qwen3 8B ^{(Yang et al., 2025)}, Gemma3 4B ^{(Gemma Team et al., 2025)}의 성능을 정량적으로 비교 분석하고, 각 모델의 질의 의도 파악 능력, 데이터 처리 정확도, 응답 시간 등의 성능 특성을 평가한다. 셋째, 평가 결과를 바탕으로 교량 유지관리 시스템 구축 시 비용, 성능, 보안 등 실무 요구사항에 따른 모델 선정 기준을 제시한다. 다만, 본 연구의 평가는 실무 질의 유형을 대표하는 20개 질의셋을 기반으로 수행되었으며, 모델 성능의 일반화에는 한계가 있을 수 있다.

2. 하이브리드 LLM 질의응답 시스템 개발

2.1 하이브리드 LLM 질의응답 시스템 프레임워크

본 연구에서 구축한 자연어 질의응답 시스템은 LLM의 환각 현상을 억제하기 위해, LLM의 언어 이해 및 추론 능력과 Python의 정확한 연산 능력을 결합한 하이브리드 구조를 채택하였으며, 시스템의 전체 구조는 Fig. 1과 같다.

Fig. 1. Hybrid LLM-based QA System Architecture

시스템은 세 단계의 처리 과정으로 구성된다. 첫 번째 단계에서는 사용자의 자연어 질문을 입력받아 LLM이 질문의 의미를 분석하고 핵심 검색 조건을 JSON 형태로 변환한다. 이 과정에서 질의 유형(일반 조회, 집계, 순위), 필터 조건(연도, 지역, 구조 형식 등), 집계 방식(개수, 최댓값, 평균 등), 정렬 기준 등의 파라미터가 구조화된 형태로 추출된다. LLM이 JSON 출력에 실패할 경우, 키워드 기반 추출 메커니즘이 자동으로 작동하여 시스템의 안정성을 보장한다.

두 번째 단계에서 LLM이 생성한 JSON을 바탕으로 Python 기반 데이터 검색 엔진이 작동한다. JSON의 각 항목은 Pandas DataFrame 연산으로 매핑되며, 필터 조건은 조건부 필터링으로, 집계 항목은 그룹화 및 집계 연산으로, 정렬 항목은 정렬 연산으로 처리된다. 이 과정에서 연도, 지역, 구조 형식, 물리적 수치 조건 등의 순서로 필터링이 수행되며, 최종적으로 집계 및 정렬 연산을 통해 질의 결과가 도출된다.

세 번째 단계에서 연산된 최종 결과 데이터를 LLM에 다시 전달하여 자연어 형식의 답변을 생성한다. LLM은 데이터프레임의 통계 정보(행 개수, 평균값, 최댓값 등)를 참조하여 사용자 친화적인 문장으로 재구성한다 답변 생성 프롬프트는 사용자의 질의 원문, 데이터프레임 연산 결과의 통계 요약 정보, 답변 형식 가이드라인(단위표기, 소수점 처리, 결과 없음 시 안내 문구 등)으로 구성된다. 이러한 구조는 LLM이 직접 수치 연산을 수행하지 않고 Python이 계산한 정확한 결과를 바탕으로 답변을 생성하도록 하여 환각 현상을 억제하고, 데이터 근거 기반의 답변을 제공한다.

일관된 JSON 출력을 보장하기 위해 프롬프트 엔지니어링 기법을 적용하였다. 의도 추출 프롬프트는 (1) 데이터베이스 스키마 정보(컬럼명, 데이터 타입), (2) JSON 출력 형식 템플릿 및 각 필드의 의미와 사용 규칙에 대한 가이드라인, (3) 질의 유형별 반환 예시(Few-shot 예시)로 구성된다. 이를 통해 LLM이 출력 형식을 학습하도록 하였으며, 각 필드의 의미와 사용 규칙을 명확히 정의하였다. 또한 JSON 파싱 후 필수 필드 검증을 수행하여 출력 형식의 일관성을 확보하였으며, 파싱 실패 시 키워드 기반 추출로 전환하여 안정성을 보장하였다. 키워드 기반 추출 메커니즘은 사전 정의된 키워드 사전(연도, 지역명, 구조형식, 집계 함수 키워드 등)과 정규 표현식 기반의 패턴 매칭을 통해 사용자 질의에서 필터 조건을 추출하며, 매칭된 키워드 조합으로부터 질의 유형과 정렬 기준을 결정한다.

예를 들어, “경기도에서 2020년 이후 준공된 PSC 교량 중 가장 긴 것?”이라는 질문은 Fig. 2와 같은 JSON으로 변환된다.

Fig. 2. Intent-Extracted JSON Structure

LLM은 질문에서 의도추출을 한 결과로 JSON 형태로 만들고 쿼리 타입을 통해, 어떤 필터링이 필요한지 구체적으로 확인 후, 연도, 지역, 상부구조 형식 조건으로 필터링한 후 연장 기준 내림차순 정렬을 수행하여 상위 1개 결과를 도출한다. 최종 결과는 LLM에 전달되어 “경기도에서 2020년 이후 준공된 PSC 교량 중 가장 긴 것은 북한강대교로, 연장은 1,074 m입니다.”와 같은 자연어 답변으로 생성된다.

2.2 데이터셋 구축 및 전처리

실험의 도메인 적용성을 높이기 위해 국토교통부에서 제공하는 2012년부터 2025년까지 발간된 ‘도로 교량 및 터널 현황조서’의 엑셀 파일에서 총 474,670개 교량 레코드와 31개의 컬럼 데이터를 수집하였다. 본 데이터는 해당 연도에 신설되거나 폐기된 교량 이외에는 동일 교량이 각 연도에 반복 수록되어 있으며, 각 연도별로 공용 중인 교량의 개소수를 합산한 수치이다.

원본 데이터의 실무적 복잡성을 반영하고 실험의 일관성을 확보하기 위해 전처리 과정을 수행하였다. 먼저, 연도별로 분산된 파일들을 단일 데이터베이스로 통합하고 Python의 Pandas 라이브러리를 활용하여 데이터프레임 환경을 구축하였다. 이 과정에서 연도별로 상이했던 필드명(Column Name)을 통일하여 모든 LLM 모델이 단일화된 스키마를 참조하도록 하였다. 용어 표준화 작업도 중요한 전처리 단계로 수행되었다. LLM이 동일한 구조 형식을 오인식하는 문제를 방지하기 위해 ‘PSCI 거더교’, ‘PSCI형 교’와 같은 유사 용어들을 하나의 표준 용어로 변환하였으며, 검색 오류를 유발할 수 있는 결측치를 정제하여 LLM의 검색 효율성과 답변의 신뢰성을 확보하였다.

2.3 비교 대상 모델

본 실험에서는 인프라 유지관리 시스템 구축 환경을 고려하여, API 접근이 가능한 고성능 클라우드 모델과 폐쇄망 환경에 구축가능한 오픈소스 로컬 모델을 선정하여 성능을 비교하였다. 모든 모델은 동일한 데이터셋과 표준화된 프롬프트 템플릿 환경에서 테스트되었다. 사용한 모델은 Table 1과 같으며, 동일 파라미터 규모의 순수 성능 비교가 아닌, 각 배포 환경에서 현실적으로 운용 가능한 모델 간의 실무적 적합성 평가를 목적으로 한다.

클라우드 기반 모델은 OpenAI의 GPT-4o(gpt-4o-2024-08-06), GPT-5(gpt-5-2025-08-07)와 Google의 Gemini 2.0 Flash를 API 방식으로 사용하였으며, 로컬 기반 모델은 GPT-OSS 20B, Qwen3 8B, Gemma3 4B 모델을 Intel® CoreTM i7-14700F CPU, NVIDIA GeForce RTX 5070 Ti GPU, 64GB RAM을 갖춘 시스템에서 CUDA 12.8 환경으로 구성하여 사용하였다. 모든 모델에 동일한 프롬프트 템플릿을 적용하였다.

Table 1. Model Classification and Characteristics

Category	Model Name	Features and Environment
Cloud Model	GPT-4o	OpenAI API-based commercial model (gpt-4o-2024-08-06). Parameters undisclosed; max input/output tokens: 128K/16K. Baseline model for evaluating Korean natural language query processing performance
	GPT-5	OpenAI API-based commercial model (gpt-5-2025-08-07). Parameters undisclosed; max input/output tokens: 1M/32K. Latest model for comparison with GPT-4o architecture and performance
	Gemini 2.0 Flash	Google API-based model (Gemini-2.0-flash). Parameters undisclosed; max input/output tokens: 1M/8K. Evaluated for fast response speed
Local Model	GPT-OSS 20B	Open-source LLM (GPT-OSS 20B, Hugging Face). 20B parameters; no API output token constraints in local environment. Performance evaluation for on-premise environment and high-performance/large-scale parameters
	Qwen3 8B	Alibaba open-source model (Qwen3-8B, Hugging Face). 8B parameters; no API output token constraints in local environment. Evaluation of Korean language and reasoning performance
	Gemma3 4B	Google lightweight model (Gemma-3-4b-it, Hugging Face). 4B parameters; no API output token constraints in local environment. Performance evaluation in resource-constrained environments

2.4 평가 지표 및 질의 시나리오

모델 성능 평가를 위해 질의를 복잡도(Query Complexity)에 따라 저(Low), 중(Medium), 고(High) 3단계로 분류하였다. 복잡도는 질의 해석의 난이도를 기준으로, 추출해야 할 파라미터의 개수, 조건 간 논리적 결합도, 의도 파악의 다중성을 종합적으로 고려하여 결정하였다.

저복잡도 질의는 특정 시설물 조회 유형으로, “인천대교의 준공년도는?”, “한강대교 정보는?”과 같이 명확한 개체명이 주어지는 경우이다. LLM은 단일 개체명을 데이터베이스에서 매칭하는 개체명 인식을 수행한다.

복잡도가 증가하면서 중복잡도 질의는 1~2개의 필터 조건과 집계 연산을 요구하게 된다. 이 단계는 집계/통계, 조건 검색, 데이터 품질 카테고리를 포함한다. “연도별 PSC교량 개수는?”, “경기도에 있는 교량 개수는?”과 같이 LLM이 필터 조건을 이해하고 적절한 집계 연산 함수로 연결해야 한다. 특히 데이터 품질 질의는 단일 조건이지만 “준공년도가 없는”과 같은 표현을 NULL 값으로 해석하는 추가적인 의도 파악 단계를 거친다.

가장 복잡한 고복잡도 질의는 순위/정렬과 복합 조건 카테고리로 구성된다. “가장 긴 교량 10개”, “경기도에서 2020년 이후 준공된 PSC 교량 중 가장 긴 교량”과 같이 정렬 기준 이해 또는 3개 이상의 다중 조건이 결합된 경우이다. 이러한 질의는 여러 조건을 논리적으로 일관되게 유지하면서 정렬 기준과 추출 범위를 올바른 파라미터 세트로 변환해야 하므로 가장 높은 수준의 의도 파악 및 정보 통합 능력을 요구한다.

이러한 난이도 분류에 따라 6가지 카테고리의 총 20개 대표 질의셋을 구축하였다(Table 2, Table 3참조).

모델의 정량적 평가는 이진 분류 방식을 적용하여 정확한 답변을 생성한 비율로 정답률을 산출하였다. 각 질의에 대한 정답은 Python Pandas를 이용한 검증 쿼리와 수작업 집계를 교차 검증하여 확정하였다. 복잡도별 정답률을 추가로 계산하여 복잡도 증가에 따른 모델 성능 변화를 분석하였으며, 계산 방식은 Eq. (1)과 같다.

(1)

$Accuracy_{difficulty} = \frac{N_{Correct}}{N_{Total}} \times 100$

또한 실무 도입 시의 효율성을 분석하기 위해 평균 응답 시간을 측정하였다. 응답시간은 사용자가 질의 입력을 마친 순간부터 최종 자연어 답변 생성까지의 시간을 기준으로 측정하였으며, 클라우드 모델의 경우 API 호출에 따른 네트워크 왕복 시간이 포함된다. 네트워크 지연을 최소화하기 위해 동일한 네트워크 환경에서 각 질의당 3회씩 측정하여 평균값을 사용하였다.

Table 2. Correct Answers by Query Complexity and Type across Models

Category	Complexity	Core Function and Evaluation Purpose
Specific Facility	Low	Entity information extraction through proper noun recognition
Aggregation/Statistics	Medium	Data grouping and arithmetic operations
Conditional Search		Filtering using logical operators
Data Quality		Missing value and outlier identification capability
Ranking/Sorting	High	Whole data comparison and sorting capability
Multiple Conditions	High	Multiple condition combination and step-by-step reasoning

Table 3. Query Test List

No.	Category	Complexity	Example Query
1	Specific Facility	Low	Provide information on Hangang Bridge.
2	Specific Facility	Low	What is the year of completion of Incheon Bridge?
3	Specific Facility	Low	What is the total length of Jinwi Bridge?
4	Data Quality	Medium	How many bridges have a construction year recorded as 8888?
5	Data Quality	Medium	How many bridges have no recorded construction year?
6	Conditional Search	Medium	How many bridges are located in Gyeonggi-do?
7	Conditional Search	Medium	How many bridges were completed after 2020?
8	Conditional Search	Medium	How many PSC bridges have a total length of 100 m or longer?
9	Conditional Search	Medium	Which expressway bridges have a height of 20 m or more?
10	Aggregation / Statistics	Medium	How many PSC bridges are there by year?
11	Aggregation / Statistics	Medium	How many bridges are there by superstructure type?
12	Aggregation / Statistics	Medium	How many bridges are there by administrative region?
13	Aggregation / Statistics	Medium	How many bridges are there by road type?
14	Ranking / Sorting	High	Which bridge has the longest total length?
15	Ranking / Sorting	High	What are the top 10 bridges with the longest span length?
16	Ranking / Sorting	High	What are the top 5 bridges with the highest height?
17	Ranking / Sorting	High	What are the top 20 bridges with the highest average daily traffic?
18	Multiple Conditions	High	Among PSC bridges completed after 2020 in Gyeonggi-do, which one is the longest?
19	Multiple Conditions	High	How many expressway bridges have a span length of 50 m or more?
20	Multiple Conditions	High	What are the top 5 tallest bridges located in Seoul?

3. LLM 모델에 따른 시스템 실험 결과

3.1 모델별 종합 성능 비교

총 20개 질의(복잡도 저 3개, 중 10개, 고 7개)에 대한 6종 모델의 정답률, 평균 응답 시간을 Table 4에 요약하였다. 정답률은 LLM이 사용자의 의도를 정확하게 파악하고 시스템이 올바른 결과값을 도출한 비율을 의미한다.

GPT-4o와 GPT-OSS 20B 모델이 95.0 %의 가장 높은 정답률을 기록하며 최고 성능 그룹을 형성하였다. 특히 GPT-4o는 최고 성능 모델 중 7.61초로 가장 빠른 응답 시간을 보여, 정답률과 실시간 응답성을 모두 고려했을 때 전반적인 우위가 확인되었다. Gemini 2.0 Flash는 7.52초로 전체 모델 중 가장 빠른 응답 속도를 기록했으나, 정답률은 90.0 %에 머물렀다.

로컬 모델 중에서는 GPT-OSS 20B가 95.0 %의 정답률로 가장 높은 성능을 보였으며, Qwen3 8B는 90.0 %의 정답률을 기록하였다. 두 모델의 평균 응답 시간은 각각 38.39초와 37.95초로 유사하였다. Qwen3 8B는 GPT-OSS 20B 대비 모델 크기가 2.5배 작으나, 응답 속도 개선은 관찰되지 않았으며, 정답 개수는 1개 차이를 보였다. 반면 Gemma3 4B 모델은 평균 응답시간 4.38초의 응답시간으로 가장 빠른 응답을 기록하였으나, 20개 질의 중 16개가 오류로 실패하였다.

다만 전체 평균 정답률은 모델 간 차이를 완전히 반영하지 못하는 한계가 있다. 질의의 복잡도에 따라 모델별 성능 편차가 크게 나타났으며, 특히 고복잡도 질의(순위/정렬, 복합 조건)에서는 로컬 모델인 GPT-OSS 20B가 100 %를 기록한 반면, 클라우드 모델들은 상대적으로 낮은 성능을 보이는 등 질의 유형에 따른 성능 차이가 관찰되었다. 이에 대한 상세 분석은 3.2절에서 제시하였다.

전반적으로 클라우드 기반 LLM 모델이 로컬 기반 모델에 비해 응답 속도가 빠른 것으로 나타났다. 반면 정답률은 배포 환경(클라우드/로컬)의 차이보다는 개별 모델의 자연어 이해 능력 및 구조화된 출력 생성 능력에 따라 더 크게 좌우하였다.

3.2 질의 유형별 성능 분석

질의 유형을 특정 시설물 조회(3개), 집계/통계(4개), 조건 검색(4개), 데이터 품질(2개), 순위/정렬(4개), 복합 조건(3개)로 구분하였으며, 질의의 복잡도에 따라 저(3개), 중(10개), 고(7개) 3단계로 분류하여 유형별로 모델 성능을 분석하였다. 정답률은 모델이 질의에 대해 의미에 따라 올바른 결과를 생성한 비율로 정의하며, 토큰 초과, 시스템오류, 응답 실패 등 모든 오류 사례는 실패로 간주하였다. Table 5는 복잡도 및 질의 유형별 정답률을 통합하여 제시하였다.

저복잡도 질의는 특정 시설물 질의에 관한 유형으로 GPT-4o, Gemini 2.0 Flash, Qwen3 8B가 100 %의 정답률을 기록하였다. 반면 GPT-5와 GPT-OSS 20B는 66.7 %, Gemma3 4B는 0 %의 정답률을 나타냈다. 해당 실패 사례는 시설물명 표기 불일치로 인한 개체 인식 오류가 주된 원인으로 분석되었다.

중복잡도 질의는 집계/통계, 조건 검색, 데이터 품질 유형에 관한 질의로 GPT-4o, Gemini 2.0 Flash, GPT-OSS 20B가 100 %의 정답률을 달성하였다. GPT-5와 Qwen3 8B는 90.0 % 정답률을 보였는데, GPT-5의 경우 질의 내 조건을 명확히 판별하지 못해 의도 추출에 실패했다. Gemma3 4B는 40.0 %의 정답률에 그쳤으며, 이는 질의 내 핵심 키워드 및 의도 추출 미흡, 또는 데이터 매핑 실패에 따른 결과로 분석된다.

고복잡도 질의는 순위/정렬과 복합 조건 유형에 관한 유형으로 로컬 모델인 GPT-OSS 20B가 100 %의 정답률로 가장 우수한 성능을 기록하였다. GPT-4o와 Qwen3 8B는 85.7 %의 정답률을 나타냈는데, GPT-4o는 대용량 순위 질의 처리 시 API 토큰 제한 초과로 인해 응답에 실패하였으며, Qwen3 8B는 조건을 만족하는 데이터가 존재함에도 0건으로 반환하는 오답 사례가 나왔다. GPT-5와 Gemini 2.0 Flash는 71.4 %의 정답률을 기록하였다. 두 모델 모두 복합 조건에서는 100 %의 정확도를 보였으나, 순위/정렬 유형에서 API 토큰 제한 초과 오류가 공통으로 발생하여 성능 하락의 주요 원인이 되었다.

모델별 정답률을 질의 복잡도 기준으로 비교한 결과, 질의 복잡도가 증가할수록 모델 간 성능 편차가 확대되는 경향이 확인되었다. 저복잡도 질의에서는 특정 키워드 인식 단계의 차이가 관찰되었으며, 중복잡도부터는 모델별 의도 파악 역량에 따른 성능 분별력이 강화되었다. 특히 고복잡도의 순위/정렬 유형에서는 클라우드 기반 모델이 대용량 데이터 처리 과정에서 토큰 제한 문제로 실패하는 경향이 두드러진 반면, 로컬 환경에서 실행된 모델은 토큰 제한의 영향 없이 안정적으로 응답을 수행하였다.

Table 4. Overall Model Performance Summary for 20 Questions

Category	Model Name	Accuracy (%)	Avg. Resp. Time (sec)	Correct Answers
Cloud Model	GPT-4o	95	7.61	19
	GPT-5	80	33.72	16
	Gemini 2.0 Flash	90	7.52	18
Local Model	GPT-OSS 20B	95	38.39	19
	Qwen3 8B	90	37.95	18
	Gemma3 4B	20	4.38	4

Note : Avg. Resp. Time = Average Response Time; Correct Answers indicate the number of correct responses out of 20 test queries.

Table 5. Model Accuracy by Query Complexity and Type

Complexity	Query Type	# of Queries	M 1	M 2	M 3	M 4	M 5	M 6
Low	Specific Facility	3	3	2	3	2	3	0
Medium	Aggregation/Statistics	4	4	4	4	4	4	3
	Conditional Search	4	4	3	4	4	4	0
	Data Quality	2	2	2	2	2	1	1
High	Ranking/Sorting	4	3	2	2	4	4	0
High	Multiple Conditions	3	3	3	3	3	2	0
Average Accuracy by Complexity (%)
Low		3	100	66.7	100	66.7	100	0
Medium		10	100	90	100	100	90	40
High		7	85.7	71.4	71.4	100	85.7	0
Total Accuracy (%)			95	80	90	95	90	20

M 1: GPT-4o, M 4: GPT-OSS 20B, M 2: GPT-5, M 5: Qwen3 8B, M 3: Gemini 2.0 Flash, M 6: Gemma3 4B

3.3 오류 발생 현황 및 분석

실험 결과 발생한 총 26건의 실패 사례를 분석한 결과, 오류의 원인은 크게 기술적 제약(API 토큰 제한 초과, 응답실패)과 논리적 한계(시설물명 인식 오류, 의도 추출 및 논리 오류)로 구분되었다. 모델별 오류 유형의 분포는 Table 6와 같다.

API 토큰 제한 초과(4건) 오류는 클라우드 기반 고성능 모델(GPT-4o, GPT-5, Gemini 2.0)에서만 공통적으로 관찰되었다. 이는 순위/정렬 질의와 같이 대량의 행 데이터를 처리하고 출력해야 하는 과업에서, 모델의 최대 출력 토큰 길이를 초과함에 따라 응답이 중단된 사례이다. 반면, 로컬 환경에서 실행된 모델들은 이러한 시스템적 제약 없이 모든 순위 질의에 성공적으로 응답하여 대용량 데이터 처리 환경에서의 상대적 강점을 나타냈다.

응답 실패(6건)는 Gemma3 4B에서만 발생하였으며, 모델이 질의 자체를 해석하지 못하고 비정상적인 응답을 출력한 사례이다. 이는 질의 처리 과정에서 구조화된 출력 생성 실패로 인해 발생한 것으로 분석되며, 해당 모델이 본 연구의 구조화된 출력 요구사항과 부합하지 않음을 나타낸다.

시설물명 인식 오류(4건)는 저복잡도 질의에서 주로 발생하였다. 시설물 명칭이 데이터베이스 내 필드값과 완벽히 일치하지 않거나, 질의 내 다른 단어가 개체명 인식에 간섭을 일으켜 조회가 실패한 경우이다. GPT-OSS 20B와 GPT-5 등 고성능 모델에서도 각 1건씩 발생한 점을 고려할 때, 이는 모델 규모보다 도메인 특화 용어에 대한 사전 학습, 데이터 전처리 및 표준화의 중요성을 보여준다.

의도 추출 및 논리 오류(12건)가 가장 높은 빈도로 발생하였다. 이는 질의 내 필터링 조건을 파라미터로 적절히 변환하지 못하거나, 데이터 간의 논리적 선후 관계를 잘못 해석한 경우이다. 특히 Gemma3 4B에서 8건이 집중되었으며, 이는 해당 모델이 복잡한 자연어 질의를 구조화된 데이터 쿼리로 매핑하는 데 한계를 가지는 것을 나타낸다. GPT-5와 Qwen3 8B에서도 일부 복합 조건 및 데이터 품질 질의에서 조건을 누락하거나 데이터가 존재함에도 0건으로 응답하는 논리적 오류가 확인되었다.

Table 6. Error Distribution by Model

Category	Model Name	Technical Constraints		Logical Limitations		Total Failures
Category	Model Name	API Token Limit Exceeded	Response Failure	Facility Name Recognition Error	Intent Extraction and Logic Error	Total Failures
Cloud Model	GPT-4o	1	0	0	0	1
	GPT-5	1	0	1	2	4
	Gemini 2.0 Flash	2	0	0	0	2
Local Model	GPT-OSS 20B	0	0	1	0	1
	Qwen3 8B	0	0	0	2	2
	Gemma3 4B	0	6	2	8	16
Total Counts		4	6	4	12	26

4. 고 찰

4.1 인프라 관리 환경별 모델 적합성

응답 속도와 정답률의 상관관계를 통해 배포 환경에 따른 모델 적합성이 뚜렷하게 구분되었다(Fig. 3참고). 모델의 실무 적합성을 평가하기 위해 정확도 80 %와 응답 시간 20초를 임계값으로 설정하여 사분면 분석을 수행하였다. 이는 지식 기반 시스템의 최소 정확도 요구사항과 대화형 인터페이스의 사용자 허용 시간을 고려한 기준이다. 클라우드 모델(GPT-4o, Gemini 2.0 Flash)은 평균 7.61초 내외의 응답 속도와 90 % 이상의 정답률을 기록하여 Z1(실시간 서비스 최적화) 영역에 위치하며, 즉각적인 응답이 요구되는 질의응답 시스템에 적합하다. 로컬 모델 중 GPT-OSS 20B는 95 %의 정답률로 클라우드 모델과 동등한 정확도를 달성하였으나, 38.39초의 응답시간은 임계값을 초과하므로 Z2(정확도 중심 성능) 영역에 해당한다. 따라서 해당 모델은 빠른 응답 시간 보다 데이터 보안과 정확도가 우선시 되는 폐쇄망 환경에서 적합하다.

Qwen3 8B와 GPT-OSS 20B는 모델 크기가 2.5배 차이임에도 응답 시간이 유사하게 측정되어, 로컬 환경에서는 모델 크기보다 하드웨어 메모리 대역폭이 주요 병목지점으로 작용함을 나타낸다. 반면 Gemma3 4B는 20 %의 정답률로 Z3(효율 중심 성능) 영역에 위치하여 자연어를 구조화된 쿼리로 변환하는 데 한계를 보였다. 따라서 구조화된 출력이 요구되는 질의응답 시스템에는 최소 8B 이상의 모델이 권장된다.

Fig. 3. Performance Quad-Analysis of LLMs by Accuracy and Response Time (Z1: Real-time Service Optimized, Z2: Accuracy-focused Performance, Z3: Efficiency-oriented Performance, Z4: Inefficient Zone)

4.2 질의 복잡도 및 유형별 성능 특성

모델 유형과 질의 복잡도에 따른 정답 개수를 분석한 결과(Fig. 4), 저복잡도(L) 및 집계/통계(M1) 질의에서는 대부분의 모델이 높은 정답률을 보였으나, 고복잡도 질의(H1, H2)에서는 뚜렷한 차이가 나타났다.

순위/정렬(H1) 질의에서 클라우드 모델(GPT-4o, Gemini 2.0 Flash)은 낮은 정답률을 기록한 반면, 로컬 모델(GPT-OSS 20B, Qwen3 8B)은 100 %를 달성하였다. 이는 순위 질의가 대규모 데이터셋의 정렬 결과를 출력해야 하므로 토큰량 사용량이 증가하여 클라우드 API의 최대 출력 토큰 제한에 도달했기 때문이다. 복합 조건(H2) 질의에서는 Qwen3 8B가 66.7 %의 정답률을 기록하였는데, 지역, 기간, 구조 형식 등 다중 파라미터를 동시에 처리하는 과정에서 일부 조건이 누락되는 현상이 관찰되었다. 데이터 품질(M3) 질의에서는 GPT-4o, GPT-5, Gemini 2.0 Flash, GPT-OSS 20B가 결측치 및 이상치를 논리적 예외 조건으로 올바르게 처리하였으나, Qwen3 8B와 Gemma3 4B는 50 %의 정답률을 기록하였다. 이는 해당 값을 처리하는 것을 도메인 규칙을 인식하지 못한 것에 기인한다.

Fig. 4. Number of Correct Answers by Model Category and Question Complexity: (a) Cloud Models, (b) Local Models (L: Specific Facility, M1: Aggregation/Statistics, M2: Conditional Search, M3: Data Quality, H1: Ranking/Sorting, H2: Multiple Conditions)

4.3 오류 분석 및 시스템 고도화 방향

총 120건의 질의 중 26건의 실패 사례를 분석한 결과, 제안 시스템은 LLM의 환각 현상을 효과적으로 억제하였으며, 오류는 기술적 제약과 논리적 한계로 구분되었다(Table 6 참고). 본 연구에서 제안한 LLM-Python 하이브리드 구조는 주어진 데이터 내에서만 답변을 생성하였으며, 수치 연산 오류를 완전히 제거하였다. 전체 26건의 오류 중 수치 계산 오류는 단 한 건도 발생하지 않았으며, 이는 Python이 모든 집계, 통계, 정렬 연산을 담당하도록 설계한 결과이다. 실패 사례 결과, 기술적 제약에는 API 토큰 제한 초과(4건, 15 %)와 응답 실패(6건, 23 %)가 포함되며, 논리적 한계에는 시설물명 인식 오류(4건, 15 %)와 의도 추출 및 논리 오류(12건, 46 %)가 해당한다.

API 토큰 제한 오류는 클라우드 모델에서만 발생하였으며(GPT-4o 1건, GPT-5 1건, Gemini 2.0 Flash 2건), 대량의 결과를 반환하는 질의 처리 시 전체 데이터프레임을 LLM에 전달하는 과정에서 최대 출력 토큰 제한에 도달했다. 이는 클라우드 API의 최대 출력 토큰 제한에 기인한 것으로, 대규모 결과 집합을 요구하는 질의에서는 결과 요약 또는 페이지네이션 전략이 필요함을 시사한다. 응답 실패는 Gemma3 4B에서만 6건이 집중 발생하였으며, 이는 제안한 JSON 구조화 요구사항을 충족하지 못하는 모델의 한계를 보여준다. 반면 8B 이상 모델에서는 응답 실패가 전혀 발생하지 않아, 본 시스템이 적절한 모델 선택 시 안정적으로 작동함을 확인하였다.

시설물명 인식 오류(4건)는 모델 크기와 무관하게 발생하였으며, “한강대교”를 질의했을 때 “한강교”로 인식되어 매칭하지 못하는 등 도메인 특화 지식의 부족에 기인한다. 이는 LLM이 언어 및 도메인별 특화 지식의 필요성을 보여주며, 향후 시스템 확장을 통해 해결가능한 문제이다. 의도 추출 및 논리 오류는 총 12건으로 가장 빈번하게 발생하였으며, GPT-5 2건, Qwen3 8B 2건, Gemma3 4B에서 8건이 집중되었다. “시도별 교량 개수”질의에서 “시도별”을 시설물명으로 오인식하는 등 문맥 이해의 한계를 보였다. 이는 자연어를 구조화된 쿼리로 변환하는 과정에서 문맥 이해 및 논리적 추론 능력의 한계로 적절한 모델 선택 및 도메인 특화 프롬프트 및 시스템 설계가 필요함을 보인다.

이러한 오류 패턴 분석을 통해 교량 인프라 질의응답 시스템을 위한 모델 선택 기준을 다음과 같이 제시한다: (1) 시설물명 정규화 모듈 개발 및 도메인 특화 용어 사전 구축을 통한 인식 정확도 향상, (2) 대량 결과 처리를 위한 요약 전략 또는 페이지네이션 메커니즘 도입, (3) 복합 조건 질의의 단계적 검증 로직 강화, (4) Few-shot 예시 확대를 통한 구조화된 출력 안정성 향상. 분석된 모든 오류가 Python 연산 단계가 아닌 자연어 처리 단계에서 발생하였다. 이는 본 연구가 제안한 하이브리드 아키텍처의 핵심 설계 원칙인 연산과 해석의 분리가 효과적으로 작동하고 있음을 입증한다.

5. 결 론

본 연구는 토목 인프라 분야의 대규모 유지관리 데이터 활용 효율성 제고를 위해, LLM 기반 자연어 질의응답 시스템을 개발하고 실무 적용 가능성을 검증하였다. 제안된 하이브리드 구조는 LLM의 자연어 이해 능력과 Python의 정확한 연산 능력을 분리함으로써 LLM의 환각현상을 억제하도록 구현되었다. 다양한 LLM 모델에 따른 시스템 성능평가를 위하여 국토교통부의 2012년부터 2025년까지 교량 데이터를 활용하여 6종의 모델 성능을 비교 분석하였다.

LLM 모델별 성능 평가에서 GPT-4o와 GPT-OSS 20B가 95 %의 정답률로 가장 우수한 성능을 기록하였다. 특히 GPT-4o는 7.61초의 빠른 응답 시간으로 실시간 대민 서비스 환경에 적합한 반면, GPT-OSS 20B는 GPT-4o에 비해 느린 응답속도를 나타냈으나 고복잡도 질의에서 100 %의 정답률을 달성하여 보안이 중시되는 폐쇄망 환경에서도 고성능 시스템 구축이 가능함을 확인하였다. 다만, 로컬 모델 실험은 단일 GPU 환경에서 수행되어 20B를 초과하는 오픈 소스 모델은 평가에 포함되지 않은 한계가 있다.

질의 복잡도 분석을 통해 모델 성능의 차별적 특성을 확인하였다. 저복잡도 및 중복잡도 질의에서는 대다수 모델이 높은 정확도를 보였지만, 고복잡도 질의에서는 모델별 강점과 한계가 뚜렷하게 나타났다. 특히 순위/정렬 유형에서 클라우드 모델은 API 토큰 제한으로 인한 응답 실패가 관찰됐지만, 로컬 모델은 시스템 자원 제약이 적어 안정적인 처리가 가능하였다. 이는 대규모 인프라 데이터를 다루는 시스템 설계 시 배포 환경에 따른 기술적 제약을 충분히 고려해야 함을 보여준다.

오류 분석 결과, 의도 추출 및 논리 오류가 가장 높은 빈도로 발생하였으며, 이는 자연어를 구조화된 JSON 출력으로 변환하는 과정이 주요 오류 발생 지점임을 나타낸다. 또한 시설물명 인식 오류는 모델 규모와 무관하게 발생하여, LLM의 일반 지식과 도메인 특화 데이터베이스 간의 간극이 존재함을 확인하였다. 이러한 결과는 실적용 모델 선정 시 정답률뿐만 아니라 구조화된 출력 생성 능력, 데이터 강건성, 사용 언어에 대한 학습 정도를 종합적으로 평가하는 사전 검증 절차가 필요할 것으로 판단된다.

이러한 분석 결과에 근거하여, 클라우드 기반의 GPT-4o 모델을 적용하여 실무 활용성을 고려한 시스템 구축하였으며, 사용자를 대상으로 다양한 질의에 대한 신뢰성 확보를 위한 과정을 진행 중이다. 향후 교량 데이터의 범위와 터널, 항만 등 타 인프라 시설물 정보 DB에 대한 확대 검증을 수행하고, 지속적으로 업데이트되는 최신 LLM 모델에 대한 추적 평가를 수행하고자 한다. 본 연구가 향후 AI 기반 지능형 인프라 관리시스템 구축에 기여할 수 있을 것으로 판단된다.

Acknowledgements

This work was supported by the Ministry of Land, Infrastructure and Transport under the Bridge Management System (BMS) operation project.

References

Agarwal, S., Ahmad, L., Ai, J., Altman, S., Applebaum, A., Arbus, E., Arora, R. K., Bai, Y., Baker, B., Bao, H., Barak, B. (2025). GPT-oss-120b & GPT-oss-20b model card, arXiv preprint.

Chen, J., Bao, Y. (2025). Multi-agent large language model framework for code-compliant automated design of reinforced concrete structures, Automation in Construction, 177.

Kamath, A., Ferret, J., Pathak, S., Vieillard, N., Merhej, R., Perrin, S., Matejovicova, T., Ramé, A., Rivière, M., Rouillard, L. (2025). Gemma 3 technical report, arXiv preprint.

Google DeepMind (2024). Gemini 2.0: Our most capable and versatile model yet, Google Blog Available at: https://blog.google/technology/ai/google-gemini-ai-update-december-2024/ (Accessed: April 6, 2025).

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A., An, D., Fung, P. (2023). Survey of hallucination in natural language generation, ACM Computing Surveys, 55(12), 1-38.

Kampelopoulos, D., Tsanousa, A., Vrochidis, S., Kompatsiaris, I. (2025). A review of LLMs and their applications in the architecture, engineering and construction industry, Artificial Intelligence Review, 58(8).

Lee, J., Jung, W., Baek, S. (2024). In-house knowledge management using a large language model: Focusing on technical specification documents review, Applied Sciences, 14(5).

Li, C., Lu, S., Wang, M., Hu, Y. (2025). Overview of large language models in construction industry applications, , 298-302.

Maynez, J., Narayan, S., Bohnet, B., McDonald, R. (2020). On faithfulness and factuality in abstractive summarization, arXiv preprint.

Ministry of Land, Infrastructure and Transport MOLIT (2012-2025). Road bridge and tunnel statistics, Ministry of Land, Infrastructure and Transport, Republic of Korea (in Korean).

OpenAI (2024). GPT-4o system card, arXiv preprint.

OpenAI (2025). Introducing GPT-5, OpenAI Available at: https://openai.com/index/introducing-gpt-5/ (Accessed: April 6, 2025).

Renggli, C., Ilyas, I. F., and Rekatsinas, T. (2025). Fundamental challenges in evaluating Text2SQL solutions and detecting their limitations, arXiv preprint.

Tonmoy, S. M T. I., Zaman, S. M., Jain, V., Rani, A., Rawte, V., Chadha, A., and Das, A. (2024). A comprehensive survey of hallucination mitigation techniques in large language models, arXiv preprint.

Uhm, M., Kim, J., Ahn, S., Jeong, H., and Kim, H. (2025). Effectiveness of retrieval augmented generation-based large language models for generating construction safety information, Automation in Construction, 170.

Wu, C., Ding, W., Jin, Q., Jiang, J., Jiang, R., Xiao, Q., Liao, L., and Li, X. (2025). Retrieval augmented generation-driven information retrieval and question answering in construction management, Advanced Engineering Informatics, 65.

Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Gao, C., Huang, C., Lv, C., and Zheng, C. (2025). Qwen3 technical report, arXiv preprint.

JKSCEKSCE JOURNAL OF CIVIL AND ENVIRONMENTAL ENGINEERING RESEARCH

Journal of the Korean Society of Civil Engineers

ISO Journal TitleKSCE J. Civ. Environ. Eng. Res.

Journal Search

Journal XML

Journal Information

Performance Validation of a Hybrid LLM-Based QA System for Bridge Management

ABSTRACT

초록

핵심용어

Keywords

1. 서 론

2. 하이브리드 LLM 질의응답 시스템 개발

2.1 하이브리드 LLM 질의응답 시스템 프레임워크

Fig. 1. Hybrid LLM-based QA System Architecture

Fig. 2. Intent-Extracted JSON Structure

2.2 데이터셋 구축 및 전처리

2.3 비교 대상 모델

Table 1. Model Classification and Characteristics

2.4 평가 지표 및 질의 시나리오

(1)

Table 2. Correct Answers by Query Complexity and Type across Models

Table 3. Query Test List

3. LLM 모델에 따른 시스템 실험 결과

3.1 모델별 종합 성능 비교

3.2 질의 유형별 성능 분석

Table 4. Overall Model Performance Summary for 20 Questions

Table 5. Model Accuracy by Query Complexity and Type

3.3 오류 발생 현황 및 분석

Table 6. Error Distribution by Model

4. 고 찰

4.1 인프라 관리 환경별 모델 적합성

Fig. 3. Performance Quad-Analysis of LLMs by Accuracy and Response Time (Z1: Real-time Service Optimized, Z2: Accuracy-focused Performance, Z3: Efficiency-oriented Performance, Z4: Inefficient Zone)

4.2 질의 복잡도 및 유형별 성능 특성

Fig. 4. Number of Correct Answers by Model Category and Question Complexity: (a) Cloud Models, (b) Local Models (L: Specific Facility, M1: Aggregation/Statistics, M2: Conditional Search, M3: Data Quality, H1: Ranking/Sorting, H2: Multiple Conditions)

4.3 오류 분석 및 시스템 고도화 방향

5. 결 론

Acknowledgements

References

Article Information (continued)

핵심용어

Keywords

JKSCEKSCE JOURNAL OF CIVIL AND
ENVIRONMENTAL ENGINEERING RESEARCH