Fri Jan 03 2025 23:59:59

用DeepSeek開發AI大平台助港科研創新

DeepSeek開源大型語言模型DS-R1,效能超越ChatGPT,價格更具優勢。其潛在注意力機制及混合專家系統提升效率,開源策略促進社群協作。香港政府可藉此契機,利用公開數據建立開源AI平台,擺脫對OpenAI依賴,提升本地科研水平。

DeepSeek(「深度求索」)研發的大模型橫空面世,提供一個效能處於世界頂尖水平且極具性價比的LLM開源模型,特區政府若可採用DeepSeek公開數據,開發「公開開源人工智能平台」,正好可以幫助香港突破人工智能技術局限,又讓香港充分發揮聯通世界所長,推動DeepSeek高端智能技術進一步走向世界。

乙巳年啟始,坊間喜喜慶慶地送龍迎蛇,人工智能界亦發生一件舉世矚目的大事。靈蛇引來一頭來自中國人工智能公司DeepSeek創造、震動美國硅谷、衝擊華爾街股市的「藍鯨」──DeepSeek-R1(DS-R1)人工智能推理模型。簡單形容,從應用層面來說,DS-R1可成為OpenAI開發的ChapGPT之代替品。

DS-R1的優點是其在系統生成中的性價比(Price-Performance)遠高於傳統「生成式人工智能」,例如ChatGPT。在基準測試(Benchmark Evaluation)中,DS-R1的效率不但比其他大型語言模型,包括ChatGPT、Llama等優勝,而且其所需要的硬件設備亦較少。例如,DS-V3(R1的前一版)訓練成本約560萬美元,僅使用了2048顆英偉達(Nvidia)H800晶片,並在兩個月內成功開發。

DS-R1在系統生成的性價比遠高於傳統的生成式人工智能模型,例如訓練成本、硬件設備和基準效率。(Shutterstock)
 

採用了兩種嶄新技術

相比之下,OpenAI訓練ChatGPT-4o模型使用了2.5萬顆性能強大的H100晶片,訓練成本高達1億美元。而且除了經濟考慮之外,訓練DS-R1所需的能源消耗亦較Llama3低。

從技術層面,DS-R1採用了兩種嶄新技術,分別為「多頭潛在注意力機制」(Multi-head Latent Attention,MLA)及「混合專家系統」(Mixture of Experts,MoE)。兩者目標一致,令運算更聚焦,避免浪費算力。MoE精簡了訓練對象的特徵,從而提升模型對於計算資源的利用效率,並加速人工智能的整個訓練過程。簡而言之,人工智能預測依賴特徵,但關鍵在於特徵的質量而非數量。

運算的高維特徵空間中常常包含重複或冗餘的訊息。舉個例子,當我們判斷一個人是否在跑步時,會觀察心率加快、呼吸急促、出汗增多等生理指標。雖然這些都是獨立的指標,但它們之間存在密切的關聯,本質上都在描述同一種運動狀態。冗餘的信息不僅對訓練沒有幫助,反而會增加不必要的計算負擔。

針對這問題,DeepSeek模型的MLA在傳統注意力機制的基礎上創新:通過低秩近似技術,提取出一組精簡但富有代表性的「基礎特徵」。這就像是從紛繁複雜的數據中找出真正起決定性作用的關鍵因素,既保留了重要訊息,又顯著降低了計算成本,從而大大提升模型的運行效率。

MoE也是DeepSeek模型的一個重要組成部分。MoE就像一個有很多專家組成的團隊,每個專家都擁有擅長的知識和技能,專門處理某一類特定任務,例如代碼編寫、數學分析、文學寫作等。MoE就像一個智能的調度員,會根據輸入的信息來決定應該讓哪個專家來處理。因為每個專家都有自己擅長的領域,所以在處理複雜任務時,MoE比一般的單一模型做得更好。

除此之外,MoE只有在有需要的時候才調用特定的專家,不需要讓整個大模型都工作,從而節省了計算資源,提升計算效率。這種專家分工協作的設計理念,使MoE在保持強大性能的同時,實現了更靈活和高效的資源利用。

DS-R1的模型和代碼都是公開的,促進了人工智能開發者社群的合作,推動技術發展。(Shutterstock)
 

開源運作大受歡迎

DS-R1另一優點是開源。它的模型以及其代碼都是公開的,任人使用。相比ChatGPT的封閉式操作專有模型,DS-R1大獲全球科技界歡迎。DeepSeek的完全開源策略不僅降低了使用者的使用門檻,也促進了人工智能開發者社群的協作生態。透過開源,DeepSeek吸引了大量開發者和研究人員的關注,他們可以在平台上自由取得和修改模型程式碼,共同推動人工智能技術的發展。美國法裔電腦科學家、2018年圖靈獎得主楊立昆(Yan LeCun)認為,開源是DeepSeek致勝之道,但他指出關鍵並不在DeepSeek推行完全開源,而是該公司善用開源操作,並認為DeepSeek的成功反映開源模型正在超越專有模型,每個人都可以從中受益,發揮開放研究和開源的力量。對此,筆者非常同意並建議香港創科業界認真考慮推行,而且特區政府可以利用其公開數據的經驗,開設一個「公開開源人工智能平台」,讓科學家、工程師共享原代碼。

2015年OpenAI成立,他們的計劃是研發安全人工智能,並把成果公諸於世,以不牟利開源模式與全球共享。可是到了ChatGPT-3面世之後,公司總裁阿特曼(Sam Altman)因承受不住經濟壓力改變初衷,公司開始推行商業運作模式,以賺錢來支持公司大額的研發經費。

OpenAI停止向中國提供服務的部分原因是美國政府對中國在人工智能等高科技領域的擔憂加劇,這也影響了公司的決策。(Shutterstock)
 

助港提升新質生產力

更不可接受的是OpenAI停止向中國(包括香港特區在內)提供服務,令香港產學研界的工作都受到嚴重影響。例如學界只能使用舊版ChatGPT,嚴重影響教與學。為了擺脫對OpenAI的依賴,特區政府去年投資了過億港元,與本地大學合作研發一套港版ChatGPT。

人工智能是香港創新發展的重點領域,大型語言模型是全球熱門研究領域,本港科研團隊也非常投入,以筆者為例,正在研究提升LLM可靠性的技術。不過,自「特朗普1.0」開始,美國變本加厲打壓中國科技發展,禁止美國先進人工智能科技產品出售給中國,當中包括英偉達芯片,令內地及香港科研進度受阻。所幸的是DeepSeek研發出極具成本效益的運算方法,對中國人工智能發展大有幫助,亦有助工商界提升新質生產力。

原刊於《文匯報》,本社獲作者授權轉載。

黃錦輝