Yakın Politika Optimizasyonu (PPO)


Model eğitimini iyileştirmek için takviyeli öğrenmede kullanılan bir optimizasyon algoritması.