數據那點事 解決獎勵函數漏洞 作者: 車品覺 2023-05-15 當獎勵策略是強化學習的關鍵,如果關注太單一的任務及目標,而沒考慮到在完成任務過程中的不合理情況(例如作弊或意外),讓獎勵變得不合理。這漏洞最終會影響機器學習和人工智能應用的可靠性和安全性。