Skip to main content

[프로젝트 기획서] 자율주행 에이전트를 활용한 교통 정체 파동(Shockwave) 완화 실험

1. 실험 목적 (Objective)

  • 핵심 목표: 딥러닝 기반의 자율주행 에이전트(Physical AI)를 활용하여, 명확한 원인 없이 발생하는 고속도로의 '유령 정체(Phantom Traffic Jam)' 현상을 해소하고 전체 교통 흐름을 최적화한다.
  • 기대 효과: 극소수의 자율주행 차량 투입만으로도 인간 운전자의 과잉 제동(Over-braking)으로 인한 정체 파동을 흡수하는 방파제 역할을 수행할 수 있음을 수학적/시각적으로 증명하여, 향후 자율주행 모빌리티가 교통 체증 완화에 기여할 수 있는 근거를 마련한다.

2. 가설 및 변인 통제 (Hypothesis & Variables)

2-1. 검증 가설

"2차선 고속도로 환경에서 전체 차량의 5% 만을 PPO 에이전트로 통제하더라도, 이들이 적절한 차선 유지와 가감속을 수행하여 뒤로 밀려오는 정체 파동(Shockwave)을 흡수하고 도로 전체의 평균 속도를 유의미하게 향상시킬 수 있다."

2-2. 변인 통제 및 커리큘럼 학습 계획

구분변수명설정 및 통제 방법
조작 변인에이전트 투입 비율시뮬레이션 내 전체 차량 대비 RL 에이전트 비율 (초기 실험: 5%, 추후 10%, 20%로 확대)
종속 변인도로 교통 효율전체 차량의 평균 속도(Mean Velocity), 시공간 다이어그램(Time-Space Diagram) 상의 파동 소멸 여부
통제 변인시뮬레이션 환경2차선 무한 루프(또는 긴 직선) 고속도로, 전체 차량 밀도(Density) 고정
심화 변인
(NPC 행동)
MOBIL 모델 이타심 지수(pp)[커리큘럼 학습(Curriculum Learning) 적용]
- 1단계 (기초): 모든 NPC의 pp값을 0.5로 고정하여 에이전트가 정체 해소의 기본 원리 학습
- 2단계 (일반화): NPC마다 pp값을 0.01.00.0 \sim 1.0 사이로 무작위(Random) 부여하여, 이기적인 운전자와 이타적인 운전자가 섞인 현실적인 아수라장 속에서도 대응할 수 있는 범용성 확보

3. 강화학습 환경 모델링 (MDP: Markov Decision Process)

에이전트가 학습할 수 있도록 환경을 상태(SS), 행동(AA), 보상(RR)으로 수학적으로 정의합니다.

3-1. State (상태 공간, SS)

에이전트가 매 프레임마다 관측하는 주변 환경의 물리적/동적 정보입니다. (Kinematics Observation)

  • 자신(Ego)의 상태: 현재 주행 차선, 절대 속도
  • 주변 차량 정보: 앞차와의 차간 거리(Time Headway) 및 상대 속도, 뒤차와의 상대 거리 및 속도, 양옆 인접 차선의 차량 유무 및 속도

3-2. Action (행동 공간, AA)

에이전트가 매 프레임 취할 수 있는 주행 제어 명령입니다. (이산형 행동 공간으로 우선 접근)

  • 0: 차선 왼쪽으로 변경 (LANE_LEFT)
  • 1: 현재 차선 유지 (IDLE / LANE_KEEPING)
  • 2: 차선 오른쪽으로 변경 (LANE_RIGHT)
  • 3: 가속 (FASTER)
  • 4: 감속 (SLOWER)

3-3. Reward (보상 함수, RR)

에이전트가 이기적인 주행을 버리고, 도로 전체의 흐름을 돕도록 유도하는 지표입니다.

  • (+) 긍정 보상: 에이전트가 높은 속도로 주행할 때, 주변 차량(앞/뒤)의 평균 속도가 함께 올라갈 때
  • (-) 부정 보상: 충돌 발생(치명적 페널티), 너무 급격한 가감속(승차감 및 뒷차 파동 유발 페널티), 불필요하고 잦은 차선 변경

4. 실험 시나리오 (Simulation Scenario)

  • 초기 상태(Initial State): 에이전트가 우연히 정체를 마주할 때까지 기다리지 않고 학습 효율을 극대화하기 위해, 시뮬레이션 시작과 동시에 차량 밀도를 한계치로 높여 정체 파동을 강제로 유발한 상태에서 에이전트를 무작위 위치에 투입.