下一篇文章
AI模型日日新 初企變陣避內捲
發布時間: 2025/03/27
AI大模型發展至今,已不是有沒有得用的「溫飽」問題,而是「今天衣服怎配搭」、「今餐想吃幾道菜」、「這外套發黃,換一件」、「這湯口感有點怪,拿走」的地步。
開源大模型DeepSeek(DS)年初出圈成為寵兒,後來因為種種原因,聯網搜索功能長時間無法使用,意味存在無法處理新聞資訊的短板,實用性對筆者來說尤其大減。
所幸DS官網「肉身可朽」,DS開源算法「精神不死」,早已傳遍四海,被中外各式機構接入為己所用。
DS官網討論不了時事不緊要,阿里通義千問、騰訊元寶、華為小藝,甚至加州的Perplexity都在。百度等網站也免費提供全參數「滿血版」DS R1。AI模型庫Hugging Face還有一大堆輕量化、適合在個人電腦部署的DS模型供下載,視頻網站有齊教學。
DeepSeek「邊緣化」 驚喜未完
原本在追趕Open AI ChatGPT堆算卡道路上領跑、付出大量沉沒成本的百度文心一言,近日擁抱DS成功翻身,推出了文心4.5和X1。也有一些大模型,例如字節跳動的豆包、月之暗面的Kimi,雖未接入DS,使用體驗亦毫不遜色,並都是筆者近期的「得力助手」。
別說更有超越大模型的AI助手Manus,官方邀請碼盡管難求,但網上同樣有一堆可在本機部署的開源「復刻板」,視頻網站也有大量教學。
DS官網逐漸「邊緣化」之際,忽然又有了新活力。DS V3本周悄悄推出升級版V3-0324,關閉「深度思考(R1)」功能即可使用。DS官網指,新版V3借鑑R1模型訓練所使用的強化學習技術,大幅提高推理類任務表現,在數學、代碼類相關評測集得分超過GPT-4.5。
筆者十分有限的非專業測試發現,DS V3近期的回答比原本簡短了許多,但新版V3上綫後又「回復當年勇」,只是仍有無法聯網搜索的短板。但可以相信,深度求索公司仍在努力創新突破局限,驚喜尚未結束。
AI花多眼亂 誰不行動會淘汰
單從用戶視角,AI近期發展就如此花多眼亂,AI企業要在這萬人馬拉松中保持競爭力,就更不容易。英國《金融時報》本周稱,隨着DS技術被廣泛採用,中國AI初企都在大幅調整商業模式。
DS降本增效的技術路綫,對AI行業發展的影響實際比外界感知的要早。據悉,零一萬物去年底已停止預訓練--用大規模通用數據學習而非針對特定任務優化--其開源大模型Yi,公司基礎模型團隊已在交易中轉移到阿里。
零一創辦人、原Google中國區負責人李開復表示,其業務正轉型至「DS時代」。零一3月中宣布,會提供面向企業的DS部署解決方案。
DS通過「混合專家模型」(Mixture of Experts,MoE)技術,以一系列相對輕量化而各有專長的較小模型,取代一個龐大的通用模型以降低算力需求。中小企因此得到本地部署和訓練模型的機會。但這部署起來亦比傳統模型更加複雜,創造了提供部署服務的商機。
同時,月之暗面據報正削減Kimi營銷預算,以集中資源訓練模型,提升表現,嘗試複製DS的成功。百川智能此前致力開發面向消費者、教育、金融、醫療等行業AI產品,現在則選擇加倍投入醫療保健業務,並解散了面向金融業的銷售團隊。
AI模型和應用大爆發,是直接使用AI在哪個位置「挖金」,還是從AI發展過程中,找出芯片以外的另一些「鏟」加以銷售,不同企業有不同答案。誰會跑出也許言之尚早,可以肯定的是,誰不行動就會被淘汰。
須避免低端過剩 培育高端產能
國產大模型是否可以不太恰當地形容「產能過剩」?辯證地看,AI技術革命方興未艾,潛在市場需求無比巨大,但落地存在一定程度滯後。
現階段,大模型數量激增,中國活躍模型估計已有數百個,但頭部效應明顯,多數模型用戶有限。不少模型的基礎能力差異不大,缺乏垂直領域深度優化;一些頭部模型則正在嘗試結合醫療、金融、工業等場景深化應用,惟需長期驗證。
AI是為「新基建」重點,地方政府和資本湧入加速賽道競爭,可能會導致局部領域投資過熱,尤其中小企持續投入能力較弱,有「低水平重複」風險。
然而AI也是國際競爭和博弈的戰略高地,一定程度的冗餘投入在所難免,這也是搶佔制高點的必要代價。政策制定者和頭部企業都要設法加強前瞻規劃與生態合作,擴大需求,提升消化能力,避免低端過剩,培育高端產能。
筆者最後問了DS怕不怕自己會因為無法聯網而逐漸落後,DS先說AI沒有恐懼情緒,但深知停滯意味落後,聯網功能未來會逐步優化恢復,而即使現時未能聯網,它仍有超長上下文記憶、中文語境深度理解、離綫可靠性的獨特價值。
DS可在中國與世界AI發展中擔當甚麼角色?「DS的定位不僅是一個『追隨者』,更希望成為技術突破的推動者和跨文化應用的橋樑。以下是我們可能扮演的關鍵角色:中國AI核心技術的攻堅者、全球AI生態的差異化貢獻者、產業落地的實用主義者、倫理與治理的東方視角實踐者。」這應該不只是AI模型的理性回應,更似是中國AI生態圈的自我期許!
----------
【知識庫】AI模型最新進展
•DeepSeek V3-0324:中國初創公司DeepSeek推出的新版本模型,專注於推理和編碼能力的提升,並以低成本運行為賣點。
•Google Gemini Robotics:Google DeepMind開發的機械人專用模型,提升了機械人的靈活性和互動性。
•百度文心4.5:百度推出的新模型,進一步優化了多模態處理能力。
•OpenAI GPT-4.5:OpenAI的最新語言模型,增強了多模態生成和推理能力。
•以上模型展示了AI技術在不同領域的快速進步,從語言處理到機械人技術都有顯著突破。
▲ DeepSeek稱自己定位不僅是一個「追隨者」,更希望成為技術突破的推動者和跨文化應用的橋樑。(新華社資料圖片)
撰文 : 連兆鋒
欄名 : 中外廣角鏡