隨著AI大模型不斷在各行各業(yè)中得以應(yīng)用,AI算力已經(jīng)有趕超傳統(tǒng)通用算力的趨勢,有望成為主流算力,這點(diǎn)從新建的數(shù)據(jù)中心中就不難看出。工業(yè)和信息化部副部長單忠德曾在WAIC期間表示,截至5月底,全國規(guī)劃具有高性能計算機(jī)集群的智算中心已達(dá)十余個。從全國來看,智能算力在算力總規(guī)模中的比重超過了30%。與此同時,我國于2023年一年中先后出臺了《生成式人工智能服務(wù)管理暫行辦法》和《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》。預(yù)計到2025年,我國算力規(guī)模將超過300EFLOPS,智能算力占比達(dá)到35%。 如果這個比重還不那么直觀,那么從服務(wù)器出貨量上能看到,更多新建的數(shù)據(jù)中心承載了智算的業(yè)務(wù),IDC數(shù)據(jù)顯示,2023年下半年,中國智算服務(wù)市場整體規(guī)模達(dá)114.1億元,同比增長85.8%。 如此龐大的AI算力需求自然也帶來了很多的挑戰(zhàn)。AI算力與傳統(tǒng)通用算力相比,并不是簡單添加一塊GPU那么簡單。這里面涉及了從架構(gòu)到應(yīng)用復(fù)雜的轉(zhuǎn)變。而對于服務(wù)器OS來說,AI時代也提出了更高的要求。 如果把服務(wù)器比作一個人,那么芯片就是人的心臟,決定了服務(wù)器能否提供對外的“動能”,而服務(wù)器OS(操作系統(tǒng))就像是大腦,操控著全身上下所有的器官,雖然我們感受不到大腦的“律動”,但是我們每個舉動、每次呼吸都由大腦發(fā)出指令才能完成。一臺服務(wù)器也是如此,操作系統(tǒng)決定了芯片性能能否被釋放、數(shù)據(jù)的調(diào)用與存儲,拋離了操作系統(tǒng)服務(wù)器也不過是一堆硬件設(shè)備。 AI算力大考已至,服務(wù)器OS如何跟上需求?隨著AI技術(shù)的快速發(fā)展,服務(wù)器OS需要不斷適應(yīng)新的計算需求,進(jìn)行內(nèi)核和架構(gòu)的優(yōu)化,提升系統(tǒng)的整體性能。中國工程院院士陳純表示,在數(shù)智時代,操作系統(tǒng)的作用顯得更為重要,“軟硬件體系在不斷的創(chuàng)新演變,需要通過操作系統(tǒng)連接多樣化硬件與軟件,為應(yīng)用的穩(wěn)定運(yùn)行提供保障。例如云計算的調(diào)度與彈性,大模型的訓(xùn)練與推理,都離不開一個穩(wěn)定、安全、高效的服務(wù)器操作系統(tǒng)?!?br> 龍蜥社區(qū)技術(shù)委員會主席、阿里云基礎(chǔ)軟件部資深技術(shù)總監(jiān)楊勇也曾告訴鈦媒體APP,當(dāng)下絕大多數(shù)AI應(yīng)用都是采用云原生的方式部署的,這種情況下,就不單單要考慮原先基礎(chǔ)的操作系統(tǒng),而是要將AI操作系統(tǒng)、云原生操作系統(tǒng),以及服務(wù)器操作系統(tǒng)統(tǒng)一在一起看,“如果說服務(wù)器是一輛汽車的話,那么操作系統(tǒng)就是汽車的底盤,向下要兼容AI服務(wù)器中的GPU和CPU,向上要支撐各類AI原生應(yīng)用?!睏钣氯缡钦f,“既要滿足好新技術(shù)、新應(yīng)用,又要兼顧好原先的技術(shù)與應(yīng)用,這是AI時代,對服務(wù)器OS提出的最大考驗?!?br> 服務(wù)器OS在為AI提供支撐的同時,也有越來越多的廠商嘗試將AI的能力植入到服務(wù)器OS中,為服務(wù)器OS賦能。在浪潮信息系統(tǒng)軟件產(chǎn)品部總經(jīng)理蘇志遠(yuǎn)看來,如何將AI的能力融入到操作系統(tǒng)之中,打造OS Copilot,實現(xiàn)“AI for System”(人工智能支持操作系統(tǒng)),也將成為未來國內(nèi)操作系統(tǒng)研發(fā)方向之一。 蘇志遠(yuǎn)告訴鈦媒體APP,對于“AI for System”的最佳應(yīng)用場景,目前來看就是智能的運(yùn)維助手,“一般情況下,用戶對服務(wù)器操作系統(tǒng)不會有感知,只有當(dāng)宕機(jī)的時候才會感知到操作系統(tǒng)的存在,”蘇志遠(yuǎn)指出,“如果能將AI的能力植入到操作系統(tǒng)運(yùn)維工具中,讓AI提供預(yù)警,以及自動化的運(yùn)維操作,就能快速解決運(yùn)維的問題,減少甚至避免掉很多宕機(jī)情況的發(fā)生,從而提升系統(tǒng)的穩(wěn)定性和可用性。” 將眼光放的更長遠(yuǎn)一點(diǎn)來看,龍蜥社區(qū)副理事長張東告訴鈦媒體APP,未來,操作系統(tǒng)本身有可能成為一個智能體,“現(xiàn)在,操作系統(tǒng)很多操作實際上還是人指揮系統(tǒng)去進(jìn)行的,未來,通過AI技術(shù)的加持,讓操作系統(tǒng)能‘自己’做事,完成操作指令,向著智能體的方向發(fā)展,這是一個很重要的方向?!睆垨|進(jìn)一步指出。 智能化的事要一步一步完成,不過“AI for System”已經(jīng)被提上日程了,據(jù)蘇志遠(yuǎn)透露,AI操作系統(tǒng)運(yùn)維工具將是浪潮信息接下來與阿里云聯(lián)合重點(diǎn)研發(fā)的方向之一,“浪潮信息將基于和阿里云多場景、多硬件的優(yōu)勢,在解決好兼容性、穩(wěn)定性問題的同時,提升操作系統(tǒng)的智能化水平?!碧K志遠(yuǎn)指出。 從“可用”到“好用”,服務(wù)器OS還有多少路要走?服務(wù)器OS從“可用”走向“好用”僅僅靠一個智能化工具是不夠的。智能化工具只是實現(xiàn)“好用”路上錦上添花的功能,要實現(xiàn)“好用”還是要做好基礎(chǔ)。 這其中,穩(wěn)定性是保障業(yè)務(wù)連續(xù)運(yùn)行的關(guān)鍵,系統(tǒng)需要具備高可用性、容錯性和快速恢復(fù)能力。穩(wěn)定性自然就成了服務(wù)器OS最基本的要求,也是“可用”向著“好用”發(fā)展的第一步要解決的問題。對此,蘇志遠(yuǎn)表示,在AI服務(wù)器時代,“好用”最重要的就是穩(wěn)定,而達(dá)到穩(wěn)定過程中,最重要的就是兼容性,“很多問題都是由于驅(qū)動和硬件兼容性不好導(dǎo)致的?!碧K志遠(yuǎn)進(jìn)一步指出。 楊勇也有著相似的看法,他表示,從當(dāng)下行業(yè)發(fā)展上看,兼容性的問題是首要的挑戰(zhàn),因為它涉及產(chǎn)業(yè)鏈的重組,需要聯(lián)合服務(wù)器廠商、外設(shè)廠商、芯片廠商、軟件廠商等等,以生態(tài)的形式共同推進(jìn)。 通過龍蜥社區(qū)的組成成員也不難看出生態(tài)構(gòu)建的重要性,龍蜥社區(qū)中既有浪潮信息這樣的服務(wù)器供應(yīng)商,又有英特爾這樣的芯片廠商,還有阿里云這樣的在云計算方面有著豐富優(yōu)化經(jīng)驗的云服務(wù)商,更是有統(tǒng)信軟件這樣的操作系統(tǒng)開發(fā)公司,完善的生態(tài)自然也成為解決兼容性問題的最佳途徑。 而在AI時代,對服務(wù)器操作系統(tǒng)的“好用”也多了些許訴求。在楊勇看來,AI時代,首先要解決的也是“可靠性”問題,不過這個可靠性與前文提到的穩(wěn)定性不盡相同。AI場景下,訓(xùn)練模型要使用千卡,甚至萬卡的集群,協(xié)同工作,在這個過程中,成千上萬臺機(jī)器的協(xié)同性,以及單臺機(jī)器的穩(wěn)定性都至關(guān)重要,“從整體上看,操作系統(tǒng)在其中起到了協(xié)同的作用,從單臺機(jī)器上看,一臺宕機(jī)會影響整個集群的訓(xùn)練效率,這是大模型時代不能接受的?!睏钣聫?qiáng)調(diào)。 其次,AI是全鏈路的事,不僅是集群的協(xié)同,從操作系統(tǒng)到應(yīng)用之間的協(xié)同都要做好;再次,當(dāng)發(fā)現(xiàn)停機(jī)問題的時候,需要將問題進(jìn)行數(shù)據(jù)化、可視化,讓服務(wù)器做到可以監(jiān)控、預(yù)警,“這種系統(tǒng)的可觀測性、可運(yùn)維性,也是AI時代亟待解決的痛點(diǎn),”楊勇指出,“如何將運(yùn)維系統(tǒng)與服務(wù)系統(tǒng)結(jié)合起來,發(fā)揮更大的能力,是服務(wù)器操作系統(tǒng)所要解決的問題。” 除此之外,在AI時代,性能也成為了大家關(guān)注的焦點(diǎn)。優(yōu)秀的性能表現(xiàn)也成為了服務(wù)器OS的基本要求,包括高并發(fā)處理能力、低延遲響應(yīng)等?!爱?dāng)下GPU算力很貴,但是GPU的利用率卻很低,如果通過操作系統(tǒng)的優(yōu)化,激發(fā)更多的GPU性能,既能滿足更多的算力需求,又能為用戶節(jié)約不少成本?!睏钣逻M(jìn)一步指出。 總體來看,在AI時代,服務(wù)器操作系統(tǒng)雖然已經(jīng)滿足了“可用”的要求,但是離“好用”仍有一段路要走。 僅立足當(dāng)下,對“好用”的服務(wù)器操作系統(tǒng)的定義可以歸納為:在確保基礎(chǔ)穩(wěn)定性的前提下,提高可靠性與性能優(yōu)化水平,同時還要滿足操作系統(tǒng)的數(shù)據(jù)化、可視化運(yùn)維。 后CentOS時代,誰能接過開源操作系統(tǒng)社區(qū)大旗?這些要求僅僅依靠一家廠商是做不到,這時候生態(tài)的重要性就體現(xiàn)了出來。而生態(tài)也是當(dāng)初CentOS能火爆的重要原因??墒荂entOS的模式有一個很大的弊端——只有一家大型企業(yè)牽頭組織的開源社區(qū),而這也為如今CentOS的停更埋下了伏筆。 一家大型牽頭帶來的副作用就是,一旦這家企業(yè)不行了,或者不想“玩”了,那么這個社區(qū)就將面臨著“土崩瓦解”,而這對于要求穩(wěn)定性的服務(wù)器OS用戶來說,是不能接受。 據(jù)開放數(shù)據(jù)中心委員會(ODCC)發(fā)布的《國產(chǎn)服務(wù)器操作系統(tǒng)發(fā)展報告》顯示,愿意留在 CentOS 體系下的用戶僅占8%;而72%的用戶有意愿、且正在計劃和試點(diǎn)轉(zhuǎn)投國內(nèi)服務(wù)器 OS,其中半數(shù)以上,都希望在1年內(nèi)完成這個過渡。 正是有了CentOS的前車之鑒,龍蜥社區(qū)采用了更為多元的社區(qū)建設(shè)模式,核心成員均是來自各自領(lǐng)域的佼佼者,而社區(qū)也完全按照貢獻(xiàn)值排名,激發(fā)了成員參與社區(qū)建設(shè)的積極性。 據(jù)統(tǒng)計,龍蜥社區(qū)推出的Anolis OS及衍生版裝機(jī)量已突破800萬套,實現(xiàn)了從開源到商業(yè)化的良性循環(huán)發(fā)展。而就在8月底,龍蜥社區(qū)還發(fā)布了“CentOS替代計劃”、“Anolis OS 23生態(tài)衍生計劃”和“AI應(yīng)用推廣計劃”,推動國內(nèi)操作系統(tǒng)的發(fā)展。 提到國內(nèi)的開源服務(wù)器操作系統(tǒng)社區(qū)還一個不能不提的,那就是華為牽頭的歐拉。作為華為EulerOS的開源延續(xù),OpenEuler社區(qū)由華為捐贈給開放原子開源基金會,旨在通過開源社區(qū)的合作推動操作系統(tǒng)的發(fā)展。與龍蜥相比,歐拉的操作系統(tǒng)是由華為牽頭主導(dǎo),是土生土長的中國開源服務(wù)器操作系統(tǒng)社區(qū)。這點(diǎn)是優(yōu)勢,但也可能成為劣勢,因為一旦“稍有不測”,社區(qū)或?qū)⒅氐窩entOS的覆轍。 據(jù)網(wǎng)上數(shù)據(jù)顯示,目前OpenEuler社區(qū)已吸引1300+家頭部企業(yè)、研究機(jī)構(gòu)和高校加入,匯聚16800+名開源貢獻(xiàn)者,成立100+個特別興趣小組(SIG)。累計裝機(jī)量超過610萬套,在中國服務(wù)器操作系統(tǒng)市場份額中占據(jù)重要地位。 從龍蜥社區(qū)與歐拉社區(qū)的對比可以看出,兩者幾乎是平分秋色,共同“分享”了CentOS停更后帶來的用戶流。 而在北京大學(xué)計算機(jī)學(xué)院教授,副院長、中國計算機(jī)學(xué)會開源發(fā)展委員會副主任周明輝看來,一個社區(qū)若想良性發(fā)展,必備條件之一就是具備成長性,以一種自由式開源的生態(tài)構(gòu)建為基礎(chǔ),才能獲得良性發(fā)展的機(jī)會。對此,張東也有著相似看法,他告訴鈦媒體APP,一個好的開源社區(qū),若想具備長期發(fā)展的活力,一方面參與社區(qū)的人要在生態(tài)里具備一定的廣泛性,同時又離不開核心廠商的入駐,“這個核心廠商又不能是一家企業(yè),需要生態(tài)上下游都有核心廠商入駐才可以。”張東進(jìn)一步指出,“并且采用一人一票的模式,避免了某一個廠商完全說了算的情況,同時又在各個環(huán)節(jié)上確保了話語權(quán),避免了完全自由?!?strong>(本文首發(fā)于鈦媒體APP,作者|張申宇,編輯丨蓋虹達(dá)) |
19款電子扎帶
電路板識別電子標(biāo)簽