DeepSeek發布DeepSeek-OCR 2模型,採用創新的DeepEncoder V2方法,讓AI能夠根據圖像的含義動態重排圖像的各個部分,而不再只是機械地從左至右掃描。該方式模擬人類在觀看場景時所遵循的邏輯流程。
最終,該模型在處理布局複雜的圖片(如文件或圖表)時,表現優於傳統的視覺-語言模型,實現更聰明、更具因果推理能力的視覺理解。
據DeepSeek公布的技術報告,DeepSeek-OCR 2在多項關鍵指標上展現顯著優勢。在OmniDocBench v1.5基準測試中,該模型取得91.09%的成績,較前代DeepSeek-OCR提升3.73%。
內地媒體報道,該模型在保持極高精度的同時,嚴格控制了計算成本,其視覺Token數量被限制在256至1120之間,該上限與Google的Gemini-3 Pro保持一致。在實際生產環境中,該模型在處理在線用戶日誌和PDF預訓練資料時的重複率分別下降2.08%和0.81%,顯示出極高的實用成熟度。

