善科技論壇｜林詠華：人工智能如何造福人類？

第十屆慈濟論壇以「善科技」為主題12月初在香港舉行。北京智源人工智能研究院副院長兼總工程師林詠華就人工智能造福人類（AI for Goodness）發表專題演講表示，這是整個人工智能方法論的基石與核心，要從兩個角度看待：第一，從使用者角度，是否全世界的人都能受益於人工智能？第二，從創作者角度，是否全世界的每個人都可以運用人工智能，完成創新創造？

她續指這兩個問題覆蓋了人工智能研發的整個周期，主要分為五個階段，即人工智能數據、人工智能開發、人工智能評估、人工智能運算與人工智能應用。

填補AI特化領域數據集空缺

林詠華解釋，數據集（Data Set）是AI的基本，知名的數據集有現時大多數網站和網頁的基石Common Crawl，以及許多圖像生成工具、正在使用的語言和圖像資料集Laion等。但她指這些數據庫裏中文內容的質量很低，以Common Crawl為例，中文資料僅佔資料庫的5%，並且質量都不高。

對此，她表示智源研究院正與中國超過80個不同組織機構合作，致力建立高質量中文數據集。今年，研究院已經發布了第四版CCI4.0數據集，現在全世界很多模型已經在使用該數據集的內容：「我們將其放在開源網站上，因為希望全世界的人都可以使用這個數據庫，利用高質量數據創作他們自己的產品。」

研究顯示老人和小孩的語音辨識錯誤率，比成年人高出10至20%。（Shutterstock）

此外，林詠華透露老年人和兒童在使用人工智能產品時，會非常依賴語音輸入。這是由於手機的小螢幕對老年人來說非常難以輸入，而兒童更是不知道如何操作。與此同時，年紀增長會造成發聲的肌肉功能、能力或程度下降，導致老年人與一般成年人的說話方式截然不同。她指出，中國老人和小孩佔比超過總人口30%，研究顯示他們的語音辨識錯誤率相比成年人高出10%至20%。然而，現在的開源領域仍然非常缺乏這類的特化訓練資料集。

為此，林博士的團隊與南開大學合作進行了「老年人對話」的項目，在過去6個月裏，收集了約600人的退休生活、飲食、家庭等方面的日常對話。經過收集對象的授權和處理隱私訊息，這些數據得到開源，供全球公司使用，計劃未來該數據集覆蓋到95歲老人家。

相似的還有病人的語音識別。當病人住院時，他們的說話方式與正常的語序也是不同的。林詠華稱，其團隊也正在與部分醫院合作，嘗試開發更先進的技術和模型，來辨識一些病人的音訊。

模型開放助自主創新

如今雖然有很多開源模型，但若有人想要將自己的想法改進成演算法，將很難應用到模型中，因為對於這些公司來講，模型的建模是封閉的，只有內部團隊可以改動。「如果某個研究團隊、學生或教師有很多優秀的想法，他們能否參與大型模式的創新？」林詠華說。

為此，智源研究院於今年啟動了OpenSeek項目，將模型背後的所有準備工作、實驗於成果都公布於GitHub上，跟社群分享。這樣，任何人都可以選擇任何任務進行數據實驗，優化數據中心流程與模型。這一計劃現今已經引起聯合國等國際組織的廣泛關注，因為這些機構希望透過這種方式，讓更多發展中國家也能參與，獲取這些新型資訊。

機器人評估系統預防危險

將人工智能大模型作為機械人的大腦，這種嵌入式AI（Embedded AI）能夠使機器人更全面地幫助人類。然而，如果機器人失去控制，將會帶來很大的安全隱患。這是因為機器人自帶電池，且網絡連結全靠無線網絡，突發情況下無法透過切斷電源等手段應對，非常危險。因此，林詠華表示，「在物理世界裏，安全是在機器人身上運用嵌入式AI的先決條件。」

林詠華表示，我們要評估機器人是否能辨識現實世界中的危險。（Shutterstock）

為此，林詠華的團隊建立了人工智能評估團隊，評估機器人對危險的物理識別。「當使用者提出一條危險的指令，機器人是否能辨識？」她說，「實際上，這在物理世界中非常危險。因此，它可以拒絕執行。所以我們需要測試很多這類東西，評估機械人是否能辨識現實世界中的危險。」

對於大型模型來說，進行基準測試、評估大型模型的品質和智慧變得愈來愈困難。林詠華說為此需要建立基準測試，制定方法論，尤其是要建構資料集。「我們希望利用這種方法來判斷機器人是否足夠安全，可以應用於現實生活或實際部署中，並將其作為標準。我們最近正在提議將嵌入式AI的安全標準納入中國國家標準和國際電信聯盟（ITU）國際標準。」

降低AI應用創新門檻

林詠華提到，她近來參加了在首爾舉行的人工智能高標準峰會，其中降低人工智能應用與創新門檻已經成為熱門話題。全球三大重要標準組織──國際電工委員會（IEC），國際標準化組織（ISO）以及國際電信聯盟（ITU）首次齊聚一堂，共同探討人工智慧標準。

其中非洲與會者在發言時，都會談及非洲令人沮喪的運算能力，以及高昂的成本和運算基礎設施缺乏的問題。林詠華指出，一些國家實際上資源非常匱乏，但包括中國在內的一些國家，卻擁有大量閒置的資料中心運算資源。在資源更新迭代的過程中，被淘汰的資源往往被閒置。因此希望透過建立一個開放運算平台，將各種未充分利用的資源連結起來，提供給發展中國家，幫助他們以低成本獲取資源，從而部署模型、人工智慧應用或進行人才培訓、教育和創新。

「但目前的一大障礙是我們還沒有這種統一的軟體生態系統。即使模型是開源的，也無法在不同的硬體上運行。這就是我們正在研究的方向。我們稱之為扁平作業系統（Flat OS）。」她指目標是讓各種大型模型或人工智慧模型在開源後，能夠非常輕鬆地在不同類型的硬體上運行。」

AI監控系統提高解析度

關於AI的應用，智源研究院正透過開源技術建立的生態系統，來解決監管等問題。林詠華稱正在與一家物流公司合作，利用AI來監控貨物運送。香港每年有2.7億噸散裝貨物運送，但由於許多環節仍然依賴人工，過去一年發生了3000多起與物流相關的工傷事故或風險。有了人工智能，可以降低物流監管的勞動力成本，同時還可以獲得高解析度測量數據，解決監控貨物運輸碰到的諸多問題。

「人工智慧向善並非只是一個環節，而是貫穿人工智慧建構的整個周期。」透過五個不同環節的解析，林詠華表示，希望未來能透過廣泛合作，在全球繼續推進這個進程。

善科技論壇系列之四