Metadata
Author: WikiMatrix
Data
English[en]
In order to make a safe agent that plays defensively, a nonlinear function of performance is often desired, so that the reward for winning is lower than the punishment for losing.
Persian[fa]
به منظور ایجاد یک عامل ایمن که به شیوهای دفاعی عمل میکند، تابع غیرخطی عملکرد غالباً مورد نظر است، بهطوریکه پاداش برای برنده شدن کمتر از مجازات برای باختن است.