如何獲得杠桿炒股資金:股市上杠桿具體操作-DeepSeek:UE8M0 FP8是針對即將發布的下一代國產芯片設計
| 代碼 | 名稱 | 當前價 | 漲跌幅 | 最高價 | 最低價 | 成交量(萬) |
|---|
8月21日,DeepSeek在其官宣發布DeepSeek-V3.1的文章中提到 ,DeepSeek-V3.1使用了UE8M0 FP8 Scale的參數精度 。另外,V3.1對分詞器及chat template進行了較大調整,與DeepSeek-V3存在明顯差異。DeepSeek官微在置頂留言里表示,UE8M0 FP8是針對即將發布的下一代國產芯片設計。
相關報道DeepSeek發布新模型V3.1 價格漲了但Agent能力提升了
8月21日 ,業界千呼萬喚的R2模型沒來,但DeepSeek官方正式發布了新模型V3.1。從命名來看這或許不是一次大的版本更新,更像是前一代DeepSeek-V3模型的小版本迭代 。
在X上 ,DeepSeek將V3.1稱為“我們邁向智能體時代的第一步 ”(our first step toward the agent era)。本次升級主要有三大亮點,其中包括更強的 Agent能力、混合思考模式和更高的思考效率。
官方表示,通過后訓練優化 ,新模型在工具使用與智能體任務中的表現有較大提升 。在編程智能體 、搜索智能體測評中, V3.1 相比之前的 DeepSeek 系列模型都有明顯提高。
DeepSeek-V3.1 是混合推理架構,一個模型同時支持思考模式和非思考模式。目前用戶可在官方 App與網頁端體驗新模型 ,通過“深度思考”按鈕,實現思考模式與非思考模式的自由切換 。DeepSeek API 也已同步升級,deepseek-chat對應非思考模式 ,deepseek-reasoner對應思考模式,且上下文均已擴展為 128K。
“混合推理非常棒。擁有一個能夠在深度思考和快速響應之間切換的模型,感覺就像是實用人工智能的未來 。”X上有網友表示,“在深度推理和快速反應之間切換真是天才之舉。”根據查詢調整深度 ,可以避免在簡單任務上過度耗時,同時在需要時進行全面分析。
與之前的版本相比,V3.1也有更高的思考效率 。官方表示 ,DeepSeek-V3.1-Think 在保持與 DeepSeek-R1-0528 相當的答案質量的同時,響應速度更快。
官方測試結果顯示,經過思維鏈壓縮訓練后 ,V3.1-Think 在輸出 token 數減少 20%-50% 的情況下,各項任務的平均表現與 R1-0528 持平。
同時,V3.1 在非思考模式下的輸出長度也得到了有效控制 ,相比于 DeepSeek-V3-0324 ,能夠在輸出長度明顯減少的情況下保持相同的模型性能。
同步地,DeepSeek進行了價格調整 ,模型的API接口調用價格有所上漲 。自 9 月 6 日凌晨起,取消夜間時段優惠,輸入價格上,緩存命中時為0.5元/百萬tokens ,緩存未命中的價格則為4元/百萬tokens(此前V3為2元/百萬tokens);輸出價格為12元/百萬tokens(此前V3為8元/百萬tokens)。
官方提到,V3.1的基礎模型在V3的基礎上重新做了外擴訓練,一共增加訓練了840B tokens。基礎模型與后訓練模型均已在Huggingface與魔搭開源 。
值得一提的是 ,DeepSeek此次還宣布增加了對海外模型Anthropic API格式的支持,官方提到這是“為了滿足大家對 Anthoripic API 生態的使用需求 ”,用戶可以將 DeepSeek-V3.1 的能力接入Claude Code框架。
發表評論
還沒有評論,快來說點什么吧~

