國家「十四五」規劃確立香港為8個重點領域的發展中心(八大中心),當中包括「中外文化藝術交流中心」。就此,筆者近日拜訪「創意香港」(CreateHK)辦公室,並與多位文化藝術業界人士交流,大家都不約而同地談及最近風靡全球的生成式人工智能(Generative AI)技術對業界的影響,例如此技術顛覆傳統藝術品的生產程序,藝術家只要提供合適的「提示」(prompt),描述自己設計的意圖,生成式AI系統便能生成相應的圖畫、音樂、文章等作品,用戶在設計階段便能省卻不少時間,據報利用「生成式人工智能」生成一幅帶有畢加索風格的圖畫,只需要幾秒鐘而已。
因此,面對新常態,藝術文化工作者切忌墨守成規,否則難免會窒礙產業的健康發展。與會者都認為,特區政府有必要盡快了解生成式AI技術的功能、生產流程、資源管理等,然後制定有效使用守則,向業界大力推介,協助企業提高生產力,以及避免它們不小心地違法。
有資訊科技官員在一個公開場合中表示,「樂見國際及內地市場不同企業推陳出新,研發自家的生成式人工智能工具(特別是ChatGPT),但同時有不少問題需要關注,包括資訊未必準確、可能有偏見或有私隱問題,亦會衍生責任、保安等問題。」在應用層面,這些問題甚為關鍵,用戶不容掉以輕心。
數據偏頗 生成內容易「指鹿為馬」
造成不準確或具偏見的人工智能生成內容(AI generated content, AIGC),主要有兩個原因,其一是因為訓練數據集有失偏頗,所以導致生成內容「指鹿為馬」。假如訓練數據集中,大部分資料都是描述馬匹的,而用戶所使用的「提示」形容一頭鹿,那麼該生成式AI系統便會錯誤地輸出「馬」作為答案。
又例如ChatGPT是美國生成式AI產品,它固然是以西方訓練文集而製造的,因此如果「提示」是有關中國歷史的話,恐怕ChatGPT未必能夠生成準確的結果。由此可見,訓練數據的挑選,對生成式AI系統的設計非常重要,將影響其準確性。
錯誤失實「提示」 釀信息安全風險
第二個原因,是源於表達模糊不清或錯亂失實的「提示」。生成式AI是建基於大型語言模型(large language model, LLM),利用超大量訓練數據,並透過深度學習而開發的技術,因此在正常運作下,答非所問的情況是難以出現的。不過,假設用戶所提出的問題是有誤的話,即使相應所生成的答案在技術上是合理,但在解決實際問題上仍價值偏低;特別是在「聊天機器人」(chatbot)的應用中,如果用戶第一個問題已經是錯誤,這錯誤便會在之後的人機對話過程中繁衍下去,導致更嚴重的錯誤,甚至引發信息安全的風險。
因此,藝術文化界業者未來很有必要學習如何制定「問題定義」(problem statement),從而設計適當無誤的「提示」。再者,從科普角度看,筆者建議中小學也應該把「提示設計」納入STEAM教育課程,裝備學生在發展一日千里的人工智能世界中生活。
須盡快制定法規 釐清行為責任
另外,人工智能世界並非法外之地,用戶必須對自己的使用行為負責任,目前知識產權、資訊安全等領域較為人關注。今年初有美國作家的生成式AI漫畫書版權申請部分被拒,轟動全球藝術文化業界,案中美國版權局裁定,該漫畫書中除了人為的文字內容,使用生成式AI程序Midjourney創作的書中插圖不受版權法保護;儘管作者解釋,插圖是基於他所提供的「提示」而生成的,是自主創新的成果,有關當局卻不以為然,堅持插圖不經人手,是毋庸置疑的「人工智能生成內容」。
另一類責任是AIGC所產生的社會衝擊,例如歧視、欺凌、私穩等問題,機器生成的內容違例誰來負責呢?這些惡行在虛擬世界已是非常普遍,但ChatGPT、Midjourney等生成式AI工具面世後,這些問題將變本加厲,影響得更嚴重。隨着AIGC商業應用的趨勢日益升溫,筆者建議特區政府必須盡快制定生成式AI法律及相關應用守則,讓業界人士有法可依,承擔自己的責任,助力藝術文化業界在人工智能新世界健康發展。
最後,值得一提的是,創新科技及工業局局長孫東上周二(9日)在數碼港舉辦的「ChatGPT及其背後技術和展望」會議中指出,ChatGPT很有可能成為本世紀最有影響力的技術之一,並形容香港今後有條件在生成式AI有所作為,當局正研究設立人工智能超算中心,因此很快將會有自己的算力,另外本地數據環境亦不錯,擁有世界各地的數據,日後或可成為「全世界唯一一個數據最全面的地方」;他又指香港有吸引人才的DNA優勢。綜合多方面因素,香港在生成式AI的發展,有條件處於世界較前位置。因此,香港官、產、學、研各界應該攜手合作,設法杜絕「數據偏頗」、「錯誤提示」及「不負責任」3大問題。
原刊於《經濟日報》,本社獲作者授權轉載。