Empirical Analyses of Corruption in the Clustering of Block MDPs
KIISE Transactions on Computing Practices(2024)
摘要
강화 학습 (RL)의 성공은 주어진 환경의 저차원 표현을 효과적으로 활용함으로써 이루어진다고 생각된다. 이런 현상의 이론적인 분석을 위해, 대개 마르코프 결정 과정 (MDP)에 일정한 구조적 가정을 부과함으로써 형식화된다. 본 연구에서는 블락 마르코프 결정 과정 (BMDP)에 초점을 두며, 여기서는 관측 가능한 상태들이 군집화의 구조를 이루며, 이들 간의 전이는 저차원의 잠재적인 상태들 간의 전이로 표현된다. 최근에 BMDP에서 군집화의 거의 최적의 이론적 분석을 통해 오류율에 대한 하한 및 그와 거의 일치하는 성능 보장을 가진 2단계 알고리즘이 제안되었다. 본 논문에서는 제안된 알고리즘을 정규적이지 않은 합성 BMDP 환경에서 구현하고 시뮬레이션함으로써, 정규적 가정이 꼭 필요하다는 것을 실험적으로 검증한다. 또한, 매우 놀랍게도, 일정 수준까지의 임의적인 오염이 마치 암시적 정규화처럼 작용하여, 정규적 가정이 없는 상태에서도 군집화 성능이 잘 나오는 것을 확인하였다.
更多查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
数据免责声明
页面数据均来自互联网公开来源、合作出版商和通过AI技术自动分析结果,我们不对页面数据的有效性、准确性、正确性、可靠性、完整性和及时性做出任何承诺和保证。若有疑问,可以通过电子邮件方式联系我们:report@aminer.cn