中國人工智能(AI)初創企業深度求索(DeepSeek)時隔近5個月再度宣布對V3基座模型進行升級,新發布的DeepSeek-V3.1模型支持混合推理架構,有更高的思考效率和更強的智能體(Agent)能力。
深度求索在微信公眾號發文稱,V3.1將實現一個模型同時支持思考模式與非思考模式;相較於其R1推理模型,V3.1的Think模式能在更短時間內給出答案。此外,通過「後訓練」(Post-Training)優化,新模型在工具使用與智能體任務中的表現有較大提升。
該公司表示,經過思維鏈壓縮訓練後,V3.1-Think在輸出token數減少20%至50%的情況下,各項任務的平均表現與公司的R1-0528持平。此外,在搜索智能體的多項測評中均取得較大提升,超過了R1-0528。
官方App與網頁端模型已同步升級至V3.1,DeepSeek的API(應用程序擴展接口)也同步升級,且上下文均已擴展為128K。這意味着模型現在能夠處理更多的訊息,並擁有更強的記憶能力。
V3.1的Base模型在V3的基礎上重新做了外擴訓練,一共增加訓練了840B大小的tokens。Base模型與後訓練模型均已開源。V3.1使用了UE8M0 FP8 Scale的參數精度。這是當前大模型訓練與推理中的一種高效低精度量化技術。