Tag: 正向學習

「獎勵函數」是用來評估智慧應用的行為模式與目標是否吻合,但當中居然有漏洞?(Shutterstock)

解決獎勵函數漏洞

當獎勵策略是強化學習的關鍵,如果關注太單一的任務及目標,而沒考慮到在完成任務過程中的不合理情況(例如作弊或意外),讓獎勵變得不合理。這漏洞最終會影響機器學習和人工智能應用的可靠性和安全性。

按類別瀏覽

Currently Playing

Login to your account below

Fill the forms bellow to register

Retrieve your password

Please enter your username or email address to reset your password.