第十屆慈濟論壇12月4日一連兩日在香港舉行,主題為「善科技」。北京智源人工智能研究院副院長兼總工程師林詠華就「人工智能造福人類(AI for Goodness)」發表了專題演講。她表示,這是整個人工智能方法論的基石與核心,要從兩個角度看待:第一,從使用者角度,是否全世界的人都能受益於人工智能?第二,從創作者角度,是否全世界的每個人,都可以運用人工智能,完成創新創造?
她續稱,這兩個問題覆蓋了人工智能研發的整個周期,主要分為五個階段,即人工智能數據、人工智能開發、人工智能評估、人工智能運算與人工智能應用。
填補AI特化領域數據集空缺
林詠華解釋,數據集(Data Set)是AI的基本,知名的數據集有現下大多數網站和網頁的基石Common Crawl,以及許多圖像生成工具正在使用的語言和圖像資料集Laion等。但她提到,這些數據庫裏中文內容的質量很低。以Common Crawl為例,中文資料僅佔資料庫的5%,並且質量都不高。
對此,她指出,智源研究院正與中國超過80個不同組織機構合作,致力於建立高質量中文數據集。今年,研究院已經發布了第四版CCI4.0數據集,現在全世界很多模型已經在使用該數據集的內容。她說,「我們將其放在開源網站上,因為希望全世界的人都可以使用這個數據庫,利用高質量數據創作他們自己的產品。」

此外,林詠華表示,老年人和兒童在使用人工智能產品時,會非常依賴語音輸入。這是由於手機的小螢幕對老年人來說非常難以輸入,而兒童更是不知道如何操作。與此同時,年紀增長會造成發聲的肌肉功能、能力或程度有所下降,導致老年人與一般成年人的說話方式截然不同。她指出,中國老人和小孩佔比超過總人口30%,研究表明,他們的語音辨識錯誤率相比成年人群體要高出10%至20%。然而,現在的開源領域仍然非常缺乏這類的特化訓練資料集。為此,林博士的團隊與南開大學合作進行了「老年人對話」的項目,在過去6個月裏,收集了約600人的退休生活、飲食、家庭等方面的日常對話。經過收集對象的授權和隱私信息的處理,這些數據得到開源,供全球公司使用。她表示,她們計劃未來該數據集覆蓋到95歲老人家。
相似的還有病人的語音識別。當病人住院時,他們的說話方式與正常的語序也是不同的。林詠華稱,其團隊也正在與部分醫院合作,嘗試開發更先進的技術和模型,來對一些病人的音訊進行辨識。
模型開放助力自主創新
如今雖然有很多開源模型,但若果有人想要將自己的想法改進成演算法,將很難應用到模型中,因為對於這些公司來講,模型的建模是封閉的,只有內部團隊可以改動。「如果某個研究團隊、學生或教師有很多優秀的想法,他們能否參與大型模式的創新?」林詠華說。
為此,智源研究院於今年啟動了OpenSeek項目,將模型背後的所有準備工作、實驗於成果都公布於GitHub上,與社群分享。這樣,任何人都可以選擇任何任務進行數據實驗,優化數據中心流程與模型。這一計劃現今已經引起聯合國等國際組織的廣泛關注,因為這些機構希望通過這種方式,讓更多發展中國家也能參與這些新型資訊的獲取。
機器人評估系統預防危險
將人工智能大模型作為機器人的大腦,這種嵌入式AI(Embedded AI)能夠使機器人更全面地幫助人類。然而,如果機器人失去控制,將會帶來很大的安全隱患。這是因為機器人自帶電池,且網絡連結全靠無線網絡,突發情況下無法通過切斷電源等手段應對,非常危險。因此,林詠華表示,「在物理世界裏,安全是在機器人身上運用嵌入式AI的先決條件。」

為此,林詠華的團隊建立了人工智能評估團隊,評估機器人對危險的物理識別。「當使用者提出一條危險的指令,機器人是否能辨識?」她說,「實際上,這在物理世界中非常危險。因此,它可以拒絕執行。所以我們需要測試很多這類東西,評估機器人是否能辨識現實世界中的危險。」
對於大型模型來說,進行基準測試,評估大型模型的品質和智慧變得愈來愈困難。林詠華說,她們為此需要建立基準測試,制定方法論,尤其是要建構資料集。「我們希望利用這種方法來判斷機器人是否足夠安全,可以應用於現實生活或實際部署中,並將其作為標準。我們最近正在提議將嵌入式AI的安全標準納入中國國家標準和國際電信聯盟(ITU)國際標準。」
降低AI應用創新門檻
林詠華提到,她近來參加了在首爾舉行的人工智能高標準峰會,其中降低人工智能應用與創新門檻已經成為熱門話題。全球三大重要標準組織──國際電工委員會(IEC),國際標準化組織(ISO)以及國際電信聯盟(ITU)首次齊聚一堂,共同探討人工智慧標準。
其中非洲與會者在發言時,都會談及非洲令人沮喪的運算能力,以及高昂的成本和運算基礎設施缺乏的問題。林詠華指出,實際上,一些國家資源非常匱乏,但包括中國在內的一些國家,卻擁有大量閒置的資料中心運算資源。在資源更新迭代的過程中,被淘汰的資源往往被閒置。因此她的想法是,通過建立一個開放運算平台,將各種未充分利用的資源連結起來,提供給發展中國家,幫助他們以低成本獲取資源,從而部署模型、人工智慧應用,或進行人才培訓、教育和創新。
「但目前的一大障礙是,我們還沒有這種統一的軟體生態系統。即使模型是開源的,也無法在不同的硬體上運行。這就是我們正在研究的方向。我們稱之為扁平作業系統(Flat OS)。」她說,「我們的目標是,讓各種大型模型或人工智慧模型在開源後,能夠非常輕鬆地在不同類型的硬體上運行。」

AI監控系統提高解析度
關於AI的應用,智源研究院正透過開源技術建立的生態系統,來解決監管等問題。 林詠華稱,她們正在與一家物流公司合作,利用AI來監控貨物運送。她說,香港每年有2億7,000萬噸散裝貨物運送,但由於許多環節仍然依賴人工,過去一年發生了3,000多起與物流相關的工傷事故或風險。有了人工智能,可以降低物流監管的勞動力成本,同時還可以獲得高解析度測量數據,解決監控貨物運輸碰到的諸多問題。
「人工智慧向善並非只是一個環節,而是貫穿人工智慧建構的整個周期。」透過五個不同環節的解析,林詠華表示,希望未來能通過廣泛合作,在全球範圍內繼續推進這個進程。
善科技論壇系列 之四
延伸閱讀系列文章:














































