[Sim-KUng]의 연구 기록
Project Study Roadmap
Week 1 - Part 1
강화학습 기초 및 핵심 용어
OpenAI Spinning Up 기반 강화학습(RL)의 기본 개념, MDP, 가치 함수 및 벨만 방정식 정리
Week 1 - Part 2
PPO Algorithm (근접 정책 최적화)
기존 RL의 한계를 극복한 PPO의 핵심 수식(Clipped Objective)과 Stable Baselines3 코드 분석
Week 1 - Part 3
교통 정체 파동과 MOBIL 모델
유령 정체(Phantom Jam)의 발생 원리와 시뮬레이션 내 일반 차량의 차선 변경 알고리즘(MOBIL) 이해
Week 2 - Part 1
커스텀 환경 구축 및 학습 세팅
highway-env를 활용한 사용자 정의 환경 구성 및 PPO 에이전트 학습 준비
Week 2 - Part 2
실험 계획서 문서화
실험 계획 확립 후 기록을 위한 문서화 작업
Week 3 - Part 1
베이스라인 및 Colab 세팅
베이스라인 시뮬레이션 및 Colab 이원화 파이프라인 구축
Week 4
State & Action 설계
강화학습 에이전트의 관측 상태(State) 및 이산 행동(Action) 정의와 로깅 Wrapper 구축



