Çok engin bilgiye sahip değilim ama benim konu hakkında bilgim şöyle:
Elinizde olasılıksal bir model var fakat siz bu modeli bilmiyorsunuz. Probleminiz de episodik. Başlangıç ve bitiş noktaları var. Siz bu modeli öğrenmek istiyorsunuz. Mesela bir noktada bir aksiyon alıyorsunuz gideceğiniz bir sonraki adım P(bir_sonraki_nokta | şu_an_bulunulan_nokta, aksiyon) şeklinde modellenmiş. Bu olasılıkları bulmak için sonsuz defa bir adımdan başlayıp belirli aksiyon alıp, bu aksiyon sonucunda nereye vardığınızı saymanız gerekir. Durum uzayınız ve aksiyon uzayınız yeterli sayı da simülasyon yapmak için uygun olmayabilir. Bu durumda ilgili olasılıkları tamamladığınız episodelar üzerinden oluşturursunuz.
Monte-Carlo ismi fantastik dursa da temel olarak simülasyon yapıp, gözlemlediğiniz değerlerden modelinizi oluşturmayı ifade ediyor.