[프로젝트 기획서] 자율주행 에이전트를 활용한 교통 정체 파동(Shockwave) 완화 실험

1. 실험 목적 (Objective)

핵심 목표: 딥러닝 기반의 자율주행 에이전트(Physical AI)를 활용하여, 명확한 원인 없이 발생하는 고속도로의 '유령 정체(Phantom Traffic Jam)' 현상을 해소하고 전체 교통 흐름을 최적화한다.
기대 효과: 극소수의 자율주행 차량 투입만으로도 인간 운전자의 과잉 제동(Over-braking)으로 인한 정체 파동을 흡수하는 방파제 역할을 수행할 수 있음을 수학적/시각적으로 증명하여, 향후 자율주행 모빌리티가 교통 체증 완화에 기여할 수 있는 근거를 마련한다.

"2차선 고속도로 환경에서 전체 차량의 5% 만을 PPO 에이전트로 통제하더라도, 이들이 적절한 차선 유지와 가감속을 수행하여 뒤로 밀려오는 정체 파동(Shockwave)을 흡수하고 도로 전체의 평균 속도를 유의미하게 향상시킬 수 있다."

구분	변수명	설정 및 통제 방법
조작 변인	에이전트 투입 비율	시뮬레이션 내 전체 차량 대비 RL 에이전트 비율 (초기 실험: 5%, 추후 10%, 20%로 확대)
종속 변인	도로 교통 효율	전체 차량의 평균 속도(Mean Velocity), 시공간 다이어그램(Time-Space Diagram) 상의 파동 소멸 여부
통제 변인	시뮬레이션 환경	2차선 무한 루프(또는 긴 직선) 고속도로, 전체 차량 밀도(Density) 고정
심화 변인 (NPC 행동)	MOBIL 모델 이타심 지수( $p$ )	[커리큘럼 학습(Curriculum Learning) 적용] - 1단계 (기초): 모든 NPC의 $p$ 값을 0.5로 고정하여 에이전트가 정체 해소의 기본 원리 학습 - 2단계 (일반화): NPC마다 $p$ 값을 $0.0 \sim 1.0$ 사이로 무작위(Random) 부여하여, 이기적인 운전자와 이타적인 운전자가 섞인 현실적인 아수라장 속에서도 대응할 수 있는 범용성 확보

에이전트가 학습할 수 있도록 환경을 상태( $S$ ), 행동( $A$ ), 보상( $R$ )으로 수학적으로 정의합니다.

에이전트가 매 프레임마다 관측하는 주변 환경의 물리적/동적 정보입니다. (Kinematics Observation)

자신(Ego)의 상태: 현재 주행 차선, 절대 속도
주변 차량 정보: 앞차와의 차간 거리(Time Headway) 및 상대 속도, 뒤차와의 상대 거리 및 속도, 양옆 인접 차선의 차량 유무 및 속도

에이전트가 매 프레임 취할 수 있는 주행 제어 명령입니다. (이산형 행동 공간으로 우선 접근)

에이전트가 이기적인 주행을 버리고, 도로 전체의 흐름을 돕도록 유도하는 지표입니다.

초기 상태(Initial State): 에이전트가 우연히 정체를 마주할 때까지 기다리지 않고 학습 효율을 극대화하기 위해, 시뮬레이션 시작과 동시에 차량 밀도를 한계치로 높여 정체 파동을 강제로 유발한 상태에서 에이전트를 무작위 위치에 투입.