diff --git a/.vuepress/theme/components/Page.vue b/.vuepress/theme/components/Page.vue index 0afa0f8..e651746 100644 --- a/.vuepress/theme/components/Page.vue +++ b/.vuepress/theme/components/Page.vue @@ -96,6 +96,7 @@ export default { padding: 16px; top 80px; right: 20px; + max-width: 300px; height 100vh overflow-x hidden overflow-y auto diff --git a/DeepSeek应用场景/DeepSeek + 内容创作/用DeepSeek做小红书真的太牛了!轻轻松松打造爆款笔记.md b/DeepSeek应用场景/DeepSeek + 内容创作/用DeepSeek做小红书真的太牛了!轻轻松松打造爆款笔记.md index 5c4841d..90cef86 100644 --- a/DeepSeek应用场景/DeepSeek + 内容创作/用DeepSeek做小红书真的太牛了!轻轻松松打造爆款笔记.md +++ b/DeepSeek应用场景/DeepSeek + 内容创作/用DeepSeek做小红书真的太牛了!轻轻松松打造爆款笔记.md @@ -9,11 +9,13 @@ DeepSeek,是一款 **AI 助手应用**,也就是ChatGPT、OpenAI、豆包和 在做小红书方面,DeepSeek能够实现多个目标,包括但不限于**搭建选题、收集资料、写标题、写文案、做图片、数据分析和账号运营。** -**那么小红书博主应该如何向DeepSeek提问?有哪些注意事项?流程是怎么样的?**接下来我们就详细为大家介绍。 +**那么小红书博主应该如何向DeepSeek提问?有哪些注意事项?流程是怎么样的?** + +接下来我们就详细为大家介绍。 ## 搭建选题 -**用DeepSeek来找小红书笔记选题,提问不能太过宽泛,例如“最近有什么美妆热点话题?”**这样的问题涵盖的范围是非常广的,有整个行业的动态、市场趋势分析,这对于一个小红书美妆博主来说根本无法直接使用,还得自己去深挖、和自己的定位等等联系,找选题。 +**用DeepSeek来找小红书笔记选题,提问不能太过宽泛,例如“最近有什么美妆热点话题?”** 这样的问题涵盖的范围是非常广的,有整个行业的动态、市场趋势分析,这对于一个小红书美妆博主来说根本无法直接使用,还得自己去深挖、和自己的定位等等联系,找选题。 ![img](https://pic.yupi.icu/yuyi/1739499899141-d2b1b51d-0bc7-420a-8d38-f671c7e2d25f.webp) @@ -21,9 +23,9 @@ DeepSeek,是一款 **AI 助手应用**,也就是ChatGPT、OpenAI、豆包和 **增加自己账号的目标与定位,包括所属类目、目标受众、笔记内容、风格等等,因为只有足够了解自己,才能将这些信息作为“背景信息”输入,得到最匹配的选题建议。** -除此之外,**背景信息**还可以加入**时间(春节期间、夏季)、地域限制(浙江、杭州)、选题来源(各大信息资源库)**等等。 +除此之外,**背景信息** 还可以加入 **时间(春节期间、夏季)、地域限制(浙江、杭州)、选题来源(各大信息资源库)** 等等。 -例如下图我测试的这个问题,**“小红书护肤博主,白皮敏感肌,面向的主要是年轻女性用户,在春季来临时可以做哪些选题?”**这个问题里就包含了相当详细和全面的背景信息,这有利于模型输出最匹配的选题,可实行性也非常高,比如“春节敏感肌急救方法”、“春季护肤品测评”、“春季敏感肌护肤流程”等等。 +例如下图我测试的这个问题,**“小红书护肤博主,白皮敏感肌,面向的主要是年轻女性用户,在春季来临时可以做哪些选题?”** 这个问题里就包含了相当详细和全面的背景信息,这有利于模型输出最匹配的选题,可实行性也非常高,比如“春节敏感肌急救方法”、“春季护肤品测评”、“春季敏感肌护肤流程”等等。 ![img](https://pic.yupi.icu/yuyi/1739499899587-3d323d38-156e-4f18-a40a-c2a483488879.webp) @@ -31,7 +33,7 @@ DeepSeek,是一款 **AI 助手应用**,也就是ChatGPT、OpenAI、豆包和 **AI 就像一个巨大的资料库入口,从中我们可以窥见它包含的所有信息数据,利用DeepSeek,就可以在搜集资料素材环节节省不少时间和精力。** -不过目前DeepSeek的知识截止日期是**2024年7月**,所以当你问它“近期……”,它很有可能给你整一个去年的东西出来,但**选择“联网搜索”,还是可以获取实时信息的。** +不过目前DeepSeek的知识截止日期是 **2024年7月**,所以当你问它“近期……”,它很有可能给你整一个去年的东西出来,但**选择“联网搜索”,还是可以获取实时信息的。** ![img](https://pic.yupi.icu/yuyi/1739499899631-cd65c785-0b4d-4017-a1dd-bc98b3bb9d05.webp) @@ -41,7 +43,7 @@ DeepSeek,是一款 **AI 助手应用**,也就是ChatGPT、OpenAI、豆包和 **尽量把需要搜集的信息描述地详细和明确,例如限定资料来源、信息发布时间范围、发布者等等;同时加入背景信息,告诉模型你的这些资料和信息是用在什么地方,需要达成的效果、实现的目标等等,能够获得更加精确和全面的资料信息。** -例如下图的对话,**“我是小红书心理博主,想要做一个抑郁症主题的笔记,内容包括抑郁症的病因,抑郁症的患病人数,抑郁症的常见病症,治愈抑郁症的方法这几项内容,请帮我搜集官方网站发布的最新数据和一些相关文献以支撑。”**模型就按要求给出了数据,并且加入在笔记大纲中,非常完成和顺畅,数据来源也非常清晰。 +例如下图的对话,**“我是小红书心理博主,想要做一个抑郁症主题的笔记,内容包括抑郁症的病因,抑郁症的患病人数,抑郁症的常见病症,治愈抑郁症的方法这几项内容,请帮我搜集官方网站发布的最新数据和一些相关文献以支撑。”** 模型就按要求给出了数据,并且加入在笔记大纲中,非常完成和顺畅,数据来源也非常清晰。 ![img](https://pic.yupi.icu/yuyi/1739499899629-225584d1-eea9-454e-b50a-8092084c94f3.webp) @@ -55,7 +57,7 @@ DeepSeek,是一款 **AI 助手应用**,也就是ChatGPT、OpenAI、豆包和 众所周知标题是决定点击率的最重要因素之一,当你写不出一个好的标题时,可以用DeepSeek进行写作。 -注意**不要给DeepSeek一个太过“抽象”和“理论”的问题**,比如,“请给我取一个有关美食的有吸引力的标题”,美食、有吸引力?这个范围可太大了,会出现各种各样的标题,但是并不一定符合你的账号定位和笔记内容。 +注意 **不要给DeepSeek一个太过“抽象”和“理论”的问题**,比如,“请给我取一个有关美食的有吸引力的标题”,美食、有吸引力?这个范围可太大了,会出现各种各样的标题,但是并不一定符合你的账号定位和笔记内容。 ### 应该怎么问? @@ -67,7 +69,7 @@ DeepSeek,是一款 **AI 助手应用**,也就是ChatGPT、OpenAI、豆包和 ## 文案写作 -写文案需要考虑的因素就更多了,你的问题直接导致了文案的要点、深度、风格等等,**如果问题过于简洁,或者表述不明,那么生成的文案也是很难满意的,**比如你问“请给我生成一篇护肤技巧的小红书笔记文案,”护肤包含的内容可太多了,护肤手法、时间、护肤品使用、不同肤质的护肤注意事项……你不说,DeepSeek是没法猜到你内心想要的东西的。 +写文案需要考虑的因素就更多了,你的问题直接导致了文案的要点、深度、风格等等,**如果问题过于简洁,或者表述不明,那么生成的文案也是很难满意的,** 比如你问“请给我生成一篇护肤技巧的小红书笔记文案,”护肤包含的内容可太多了,护肤手法、时间、护肤品使用、不同肤质的护肤注意事项……你不说,DeepSeek是没法猜到你内心想要的东西的。 **所以以下这些内容,都是可以放进问题里的:** @@ -75,7 +77,7 @@ DeepSeek,是一款 **AI 助手应用**,也就是ChatGPT、OpenAI、豆包和 **②详细背景与要求**,例如“笔记内容应包含秋季护肤的重要性、适合秋季的护肤品推荐(至少三款)、个人使用体验分享以及结尾的互动呼吁(如邀请用户留言分享自己的秋季护肤心得)”。 -**③输出的文案必须包含的要点、风格、排版、符号等。**例如“笔记必须包含实操步骤,笔记语言通俗易懂,可以加入一些搞笑元素,文章要用符号分点,排版整齐。” +**③输出的文案必须包含的要点、风格、排版、符号等。** 例如“笔记必须包含实操步骤,笔记语言通俗易懂,可以加入一些搞笑元素,文章要用符号分点,排版整齐。” 将以上这些提示语整合后输入,DeepSeek就可以输出一篇完整的小红书笔记文案。 @@ -87,15 +89,15 @@ DeepSeek,是一款 **AI 助手应用**,也就是ChatGPT、OpenAI、豆包和 想要生成一张图片,首先我们要用文字详细描述,包含多种要素和输出要求: -**①图片元素:**图片中的主要对象或场景,如人物、动物、风景、描述对象的特征,如动作、装扮、形态,如果有多个对象,还要说明他们的布局和关系。 +**①图片元素:** 图片中的主要对象或场景,如人物、动物、风景、描述对象的特征,如动作、装扮、形态,如果有多个对象,还要说明他们的布局和关系。 -**②背景与场景:**说明图片的背景内容,如纯色背景、教室背景、草原背景,如果背景中还有固定元素,如云朵、树木、建筑物等,也需要详细描述。 +**②背景与场景:** 说明图片的背景内容,如纯色背景、教室背景、草原背景,如果背景中还有固定元素,如云朵、树木、建筑物等,也需要详细描述。 -**③风格与色彩:**描述图片的整体风格,如小清新、卡通等,并且规定图片色彩和色调,如冷暖色调、蓝色调,使用暖黄色、纯白色。 +**③风格与色彩:** 描述图片的整体风格,如小清新、卡通等,并且规定图片色彩和色调,如冷暖色调、蓝色调,使用暖黄色、纯白色。 -**④图片格式:**SVG、PNG、JPG;图片尺寸;图片分辨率。 +**④图片格式:** SVG、PNG、JPG;图片尺寸;图片分辨率。 -**⑤其他细节:**还可以说明图片的用途或场景,以便DeepSeek更好地理解需求。 +**⑤其他细节:** 还可以说明图片的用途或场景,以便DeepSeek更好地理解需求。 例如下图的一段文字,就包含了图片主题、各个元素,图片风格、格式等等。 @@ -105,15 +107,15 @@ DeepSeek,是一款 **AI 助手应用**,也就是ChatGPT、OpenAI、豆包和 ①优化文字 -在文字末尾加上**“请帮我生成AI绘画提示词”**,DeepSeek就会生成一段优化后的文字,**将优化后的文本内容复制**下来,**选择一个文生图 AI 模型**(如Midjourney、即梦AI、Stable Diffusion等),将文本内容粘贴进去,根据所选模型的提示和要求,调整图片的风格、格式等细节,就可以生成图片了。 +在文字末尾加上 **“请帮我生成AI绘画提示词”** ,DeepSeek就会生成一段优化后的文字,**将优化后的文本内容复制** 下来,**选择一个文生图 AI 模型**(如Midjourney、即梦AI、Stable Diffusion等),将文本内容粘贴进去,根据所选模型的提示和要求,调整图片的风格、格式等细节,就可以生成图片了。 ![img](https://pic.yupi.icu/yuyi/1739499900245-561fd391-d008-4928-b7d5-544c8987c133.webp) ### ![img](https://pic.yupi.icu/yuyi/1739499900050-7121c791-3cf4-4707-9fb1-fbac85bb6fe4.webp) -**②**生成HTML代码 +**②** 生成HTML代码 -在文字末尾加上**“配图用HTML格式制作”**, DeepSeek就会生成相应的HTML代码,将代码复制到记事本,或者vscode 等软件,保存为html文件格式,用浏览器即可打开,查看生成的图片。 +在文字末尾加上 **“配图用HTML格式制作”**, DeepSeek就会生成相应的HTML代码,将代码复制到记事本,或者vscode 等软件,保存为html文件格式,用浏览器即可打开,查看生成的图片。 ![img](https://pic.yupi.icu/yuyi/1739499900053-ac65abce-ebae-4cd8-a06a-7a12b431d2ae.webp) @@ -121,9 +123,9 @@ DeepSeek,是一款 **AI 助手应用**,也就是ChatGPT、OpenAI、豆包和 ## 数据分析 -当小红书博主某篇笔记数据差,却找不到具体原因,可以用DeepSeek做数据分析,找不足和改进的方法,但要**避免只提供单一维度的数据**,比如仅靠一个笔记阅读量提问为什么变差,影响笔记阅读量的原因是非常多的,生成的答案范围广,看了等于白看,仍然找不到原因。 +当小红书博主某篇笔记数据差,却找不到具体原因,可以用DeepSeek做数据分析,找不足和改进的方法,但要 **避免只提供单一维度的数据**,比如仅靠一个笔记阅读量提问为什么变差,影响笔记阅读量的原因是非常多的,生成的答案范围广,看了等于白看,仍然找不到原因。 -所以需要**将笔记详细数据,包括但不限于账号粉丝量、笔记数量,往期笔记数据和本篇笔记数据以及我们上面提到的这些“背景信息”:账号定位、细分类目发布时间等等,使用“请分析数据反映出这篇笔记有什么不足之处?”的指令,就能得到一则对某篇笔记的详细分析。** +所以需要 **将笔记详细数据,包括但不限于账号粉丝量、笔记数量,往期笔记数据和本篇笔记数据以及我们上面提到的这些“背景信息”:账号定位、细分类目发布时间等等,使用“请分析数据反映出这篇笔记有什么不足之处?”的指令,就能得到一则对某篇笔记的详细分析。** 例如下图的示例,将零食测评笔记的详细数据列举出来,询问此篇笔记存在的问题,模型通过数据分析给出了此篇笔记的表现情况和可能存在的问题,还给出了针对性的解决方案。 @@ -135,7 +137,7 @@ DeepSeek,是一款 **AI 助手应用**,也就是ChatGPT、OpenAI、豆包和 例如只说账号流量差,但却没有说明自己的粉丝量多少,如果你只是一个刚起步的账号,这个情况属于正常,却让DeepSeek一通分析可能的原因,那也是抓不住根本的。 -例如最近笔记数据不佳,博主就可以将自己的账号情况说明,包括**账号定位、粉丝量、粉丝画像、最近笔记发布时间和频率、内容、数据情况(背景信息)写进问题里,**回答分析了所有可能性,方便博主对比观察,在这些问题中找到自己的不足之处,同时模型还给出了实操方案,还是非常实用的。 +例如最近笔记数据不佳,博主就可以将自己的账号情况说明,包括 **账号定位、粉丝量、粉丝画像、最近笔记发布时间和频率、内容、数据情况(背景信息)写进问题里,** 回答分析了所有可能性,方便博主对比观察,在这些问题中找到自己的不足之处,同时模型还给出了实操方案,还是非常实用的。 ![img](https://pic.yupi.icu/yuyi/1739499900467-472921a6-4620-4dd5-bfd3-c972c793665d.webp) diff --git a/DeepSeek应用场景/DeepSeek + 创意设计/DeepSeek一句话搞定修图难题.md b/DeepSeek应用场景/DeepSeek + 创意设计/DeepSeek一句话搞定修图难题.md index e008809..3531c6a 100644 --- a/DeepSeek应用场景/DeepSeek + 创意设计/DeepSeek一句话搞定修图难题.md +++ b/DeepSeek应用场景/DeepSeek + 创意设计/DeepSeek一句话搞定修图难题.md @@ -7,7 +7,7 @@ 直接告诉deepseek: "请帮我写Photoshop脚本,模仿日式小清新风格 ,室内暖调,我的版本是2025版" (不会代码的宝完全不用慌!) -**💡****划重点操作流**: +**💡** **划重点操作流**: ❶ 复制代码扔进记事本📝 diff --git a/DeepSeek应用场景/DeepSeek + 办公效率/WPS里装上deepseek,简直就是办公神器.md b/DeepSeek应用场景/DeepSeek + 办公效率/WPS里装上deepseek,简直就是办公神器.md index 69e45ef..df90a74 100644 --- a/DeepSeek应用场景/DeepSeek + 办公效率/WPS里装上deepseek,简直就是办公神器.md +++ b/DeepSeek应用场景/DeepSeek + 办公效率/WPS里装上deepseek,简直就是办公神器.md @@ -51,11 +51,11 @@ JS代码里,需要把三个地方,改成你自己的: -**API key:**这里填上你刚才在第一步里,申请搞到的API key +**API key:** 这里填上你刚才在第一步里,申请搞到的API key -**API URL:**这里写调用的AI模型网址,我们这里用的是硅基流动的API,所以就填的硅基的网址。 +**API URL:** 这里写调用的AI模型网址,我们这里用的是硅基流动的API,所以就填的硅基的网址。 -**model:**这里填模型的名称。 +**model:** 这里填模型的名称。 填好之后,点击保存,WPS的宏代码,就配置OK了。 @@ -93,7 +93,7 @@ JS代码里,需要把三个地方,改成你自己的: 我们在WPS里,打字输入: -***最近很火的******deepseek******是什么*** +***最近很火的*** ***deepseek*** ***是什么*** 然后,选中这句话,点击【deepseek扩写】,唤起deepseek,开始让它那启动那神奇的创作: diff --git a/DeepSeek应用场景/DeepSeek + 理财/用Deepseek回答:如果有100万闲钱,几年内不用,该怎么理财?.md b/DeepSeek应用场景/DeepSeek + 理财/用Deepseek回答:如果有100万闲钱,几年内不用,该怎么理财?.md index 047f848..acc602f 100644 --- a/DeepSeek应用场景/DeepSeek + 理财/用Deepseek回答:如果有100万闲钱,几年内不用,该怎么理财?.md +++ b/DeepSeek应用场景/DeepSeek + 理财/用Deepseek回答:如果有100万闲钱,几年内不用,该怎么理财?.md @@ -9,7 +9,7 @@ 之后我又经过了多轮的询问,补充及更新了一些问题的信息,我发现Deepseek每次的回答都是根据我新问题的重点,能提出不一样的方案,并且越来越切合我心目中的答案——甚至和我之前投资笔记里的懒人投资组合很像,不一样的是它方案里加了商品(黄金和油气)和reits(这个是我之前不熟悉的) -**我最后询问的问题是:**如果我有100万元闲钱,在几年内不用,可以考虑拿一部分资产做跨境资产配置(但我对这些不熟悉,不能是操作难度较大的),同时我在国内,希望能尽量在国内能买到的资产,并且我还有四个要求: +**我最后询问的问题是:** 如果我有100万元闲钱,在几年内不用,可以考虑拿一部分资产做跨境资产配置(但我对这些不熟悉,不能是操作难度较大的),同时我在国内,希望能尽量在国内能买到的资产,并且我还有四个要求: 1、希望尽量能高一些收益; @@ -190,7 +190,7 @@ -这个方案如何?我觉得稍微有些专业了,我再让Deepseek**“说人话,用更通俗的话再说一下建议”****。** +这个方案如何?我觉得稍微有些专业了,我再让Deepseek **“说人话,用更通俗的话再说一下建议”** **。** **对提供通俗版方案的要求,它的思路过程如下:** diff --git a/DeepSeek技术解析/DeepSeek 技术分析/DeepSeek技术解读:从V3到R1的MoE架构创新.md b/DeepSeek技术解析/DeepSeek 技术分析/DeepSeek技术解读:从V3到R1的MoE架构创新.md index 9462367..fb73639 100644 --- a/DeepSeek技术解析/DeepSeek 技术分析/DeepSeek技术解读:从V3到R1的MoE架构创新.md +++ b/DeepSeek技术解析/DeepSeek 技术分析/DeepSeek技术解读:从V3到R1的MoE架构创新.md @@ -502,7 +502,7 @@ V3的有监督精调做了以下这些事: 2)利用DeepSeek-R1 模型合成与推理(Reasoning)相关的SFT数据集。这里很有意思,基于R1来SFT V3,再基于V3冷启动R1。感觉上这里有关键的训练信息没有透露,DeepSeek应该还是留了一手。 -3)为特定领域(例如代码、数学或一般推理)构建量身定制的专家模型数据合成器。使用复合有监督精调和强化学习训练该专家模型。训练过程中为每个实例生成两种不同类型的 SFT样本:第一种将问题与其原始响应耦合,格式为,而第二种将系统提示与问题和R1响应合并,格式为。 +3)为特定领域(例如代码、数学或一般推理)构建量身定制的专家模型数据合成器。使用复合有监督精调和强化学习训练该专家模型。训练过程中为每个实例生成两种不同类型的 SFT样本:第一种将问题与其原始响应耦合,格式为``,而第二种将系统提示与问题和R1响应合并,格式为``。 4)建立高质量提示(Prompt)体系,引导模型形成自身的反馈与验证机制。同时整合了来自R1合成的数据,通过强化学习加强这一能力。 @@ -562,7 +562,7 @@ R1-Zero的训练过程具有重要意义: 1)准确度奖励(Accuracy rewards)。评估响应是否正确。 -2)格式奖励(Format rewards)。奖励模型将其思考过程置于“”和“”标签之间。 +2)格式奖励(Format rewards)。奖励模型将其思考过程置于“``”和“``”标签之间。 ![img](https://pic.yupi.icu/yuyi/1739504724564-16c630a6-8fe8-4e46-a7e5-08b7c0a5633a.png) @@ -592,7 +592,7 @@ DeepSeek-R1训练流程(来源:中存算) 为构建少量的长CoT数据,DeepSeek探索了几种合成方法:使用长CoT 的few-shot提示作为示例,直接提示模型通过反思和验证生成详细回答,以可读格式收集DeepSeek-R1-Zero 输出,并通过人工标注员的后处理来完善结果。在此步骤中收集了数千个冷启动样本以进行精调。 -其中可读模式指为每个回答在末尾包含一个摘要,并过滤掉不易阅读的部分。其输出格式为 |special_token||special_token|。 +其中可读模式指为每个回答在末尾包含一个摘要,并过滤掉不易阅读的部分。其输出格式为 `|special_token||special_token|`。 ### 5.2.2 面向推理的强化学习 diff --git a/DeepSeek技术解析/DeepSeek 技术分析/DeepSeek的优势与不足.md b/DeepSeek技术解析/DeepSeek 技术分析/DeepSeek的优势与不足.md index c8f4e0f..271367d 100644 --- a/DeepSeek技术解析/DeepSeek 技术分析/DeepSeek的优势与不足.md +++ b/DeepSeek技术解析/DeepSeek 技术分析/DeepSeek的优势与不足.md @@ -19,7 +19,7 @@ 5. **缺乏对某些高级应用的深度优化**:DeepSeek-V3虽然在大部分任务中表现优异,但由于其开源性质和广泛的适用性,它可能没有针对某些特定领域或高级应用进行深度优化。对于一些要求极高的行业(如医疗、金融等),DeepSeek-V3的通用性可能无法满足所有需求。 6. **对硬件要求较高**:尽管MOE架构在计算效率上有优势,但在实际应用中,尤其是大规模部署时,DeepSeek-V3的硬件要求仍然较为严苛。大量的专家模型和参数需要高性能的硬件来支撑,尤其是在大规模推理时,可能需要强大的分布式计算资源。 -**总结:**DeepSeek-V3在模型设计、训练成本、推理能力等方面都表现出了显著的优势。它的MOE架构和高效的推理机制使得它在处理大规模任务时非常出色,并且开源策略也为开发者提供了更多灵活性。然而,MOE架构的复杂性和潜在的奖励滥用问题,以及对大量高质量训练数据的需求,仍然是其需要克服的挑战。同时,在特定领域的深度优化和硬件要求方面,DeepSeek-V3可能还需要进一步的改进。 +**总结:** DeepSeek-V3在模型设计、训练成本、推理能力等方面都表现出了显著的优势。它的MOE架构和高效的推理机制使得它在处理大规模任务时非常出色,并且开源策略也为开发者提供了更多灵活性。然而,MOE架构的复杂性和潜在的奖励滥用问题,以及对大量高质量训练数据的需求,仍然是其需要克服的挑战。同时,在特定领域的深度优化和硬件要求方面,DeepSeek-V3可能还需要进一步的改进。 diff --git a/DeepSeek技术解析/DeepSeek 模型训练/DeepSeek-V3 高效训练关键技术分析.md b/DeepSeek技术解析/DeepSeek 模型训练/DeepSeek-V3 高效训练关键技术分析.md index 4e503de..6e05111 100644 --- a/DeepSeek技术解析/DeepSeek 模型训练/DeepSeek-V3 高效训练关键技术分析.md +++ b/DeepSeek技术解析/DeepSeek 模型训练/DeepSeek-V3 高效训练关键技术分析.md @@ -5,7 +5,7 @@ ## 前言 -今年春节 DeepSeek-V3&R1 对国内外 AI 圈产生了巨大的影响,其本质在于开拓了一条不同于 OpenAI 训练方法的道路,证明了通过模型架构和训练方法的极致优化,能够基于更少的算力资源训练出同等能力水平的大模型,这不仅让人们对 OpenAI 等厂商的**高****算力投入产生质疑**,更通过将先进模型开源的策略对 OpenAI 等**闭源模型的商业模式形成了巨大冲击**。 +今年春节 DeepSeek-V3&R1 对国内外 AI 圈产生了巨大的影响,其本质在于开拓了一条不同于 OpenAI 训练方法的道路,证明了通过模型架构和训练方法的极致优化,能够基于更少的算力资源训练出同等能力水平的大模型,这不仅让人们对 OpenAI 等厂商的**高** **算力投入产生质疑**,更通过将先进模型开源的策略对 OpenAI 等**闭源模型的商业模式形成了巨大冲击**。 本文试图探究 DeepSeek 为什么能够利用5%的算力训练出对标 GPT-4o 的先进模型,由于 DeepSeek-R1 源于 DeepSeek-V3 架构,且 DeepSeek-V3 论文中讲述了更多高效训练方法相关的内容,所以本文将以 DeepSeek-V3 为研究对象,分析其**在高效训练方面都采用了哪些关键技术**,未来再单独针对 DeepSeek-R1 进行分析总结。 @@ -87,14 +87,14 @@ c)**计算资源利用率**:MoE 模型中的不同专家可能具有不同的 **a)基本概念**:如 DeepSeek 在论文中所述,在训练过程中包含前向传递、反向传递两个阶段,具体包括**计算流和通信流**两个流。 -1. 1. **前向传递**:通常按顺序执行**ATTN(计算流)、DISPATCH(通信流)、MLP(计算流)、COMBINE(通信流)**操作。 +1. 1. **前向传递**:通常按顺序执行 **ATTN(计算流)、DISPATCH(通信流)、MLP(计算流)、COMBINE(通信流)** 操作。 - - ATTN(计算流):指注意力机制计算,使大模型能够捕捉文本等数据中的依赖关系,提升模型的性能和泛化能力。 - DISPATCH(通信流):指数据或任务在不同GPU节点之间的传递,提高整个训练系统的并行度和效率。 - MLP(计算流):即多层感知机计算,由输入层、输出层和一个或多个隐藏层构成,利用梯度下降法更新权重参数。 - COMBINE(通信流):指将不同GPU节点上将计算结果进行合并的通信操作。 -ii. **反向传递**:需要执行**COMBINE(通信流)、MLP_B(计算流)、MLP_W(计算流)、DISPATCH(通信流)、ATTN_B(计算流)、ATTN_W(计算流)**操作: +ii. **反向传递**:需要执行 **COMBINE(通信流)、MLP_B(计算流)、MLP_W(计算流)、DISPATCH(通信流)、ATTN_B(计算流)、ATTN_W(计算流)** 操作: - - COMBINE(通信流):定义与前向传递相同,此处特指反向传递时的数据汇总,以便进行全局参数更新。 - MLP_B(计算流):此处的B指的是Bias,指的是反向传播中对于偏执项的计算,以便更新大模型的偏执参数。 @@ -105,11 +105,11 @@ ii. **反向传递**:需要执行**COMBINE(通信流)、MLP_B(计算流 ![img](https://pic.yupi.icu/yuyi/1739511927683-afc5fe33-4e4a-4203-a0b1-a209ba05edd6.png) -**b)优化方法:**此处的双流并行,指的是计算流和通信流,双流并行即在大模型训练的反向传递阶段,**将原本存在先后顺序的更新当前层权重(即MLP_B)和将梯度继续传递到前一层(即MLP_W)这两个操作,拆分成两个独立且并行的流**,同时通过细致的设计,让训练的 barrier 刚好停在两个流任务完成的时候,**而不需要通信流或者是计算流进行等待,提高计算效率**。 +**b)优化方法:** 此处的双流并行,指的是计算流和通信流,双流并行即在大模型训练的反向传递阶段,**将原本存在先后顺序的更新当前层权重(即MLP_B)和将梯度继续传递到前一层(即MLP_W)这两个操作,拆分成两个独立且并行的流**,同时通过细致的设计,让训练的 barrier 刚好停在两个流任务完成的时候,**而不需要通信流或者是计算流进行等待,提高计算效率**。 ![img](https://pic.yupi.icu/yuyi/1739511927679-676fb960-da37-4560-ae80-7c8d9d9775bc.png) -2. **双向流水线调度优化****:** +2. **双向流水线调度优化** **:** a)**基本概念**:PP并行方法中,**训练过程经常容易出现气泡(即GPU闲置)**,核心原因是在PP并行中不同的计算阶段可能具有不同的计算复杂度和执行时间,**导致计算快的阶段需要等待计算慢的阶段完成后才能继续进行下一轮计算**,同时不同阶段之间需要进行数据通信来传递中间结果,可能会受到网络带宽等影响导致数据传输延迟,如下图所示,其中有以下一些关键信息。 @@ -119,7 +119,7 @@ ii.**数字**:表示不同的微批次(Micro - batch),图中不同GPU上 ![img](https://pic.yupi.icu/yuyi/1739511928276-250a49fd-0301-4af0-b433-47f0a634faad.png) -b)**优化方法:**传统的单向流水线通常是按照固定顺序,从流水线起始端依次进行微批次(micro - batch)处理;而DeepSeek-V3在训练过程中**采用了双向流水线调度设计,即同时从两端进行微批次(micro - batch)处理**,减少流水线气泡,另外DeepSeek将每个 micro - batch 进一步划分为更小的块(chunk),**并对计算和通信进行精细调度,实现两者的高度重叠,提高 GPU 利用率**。 +b)**优化方法:** 传统的单向流水线通常是按照固定顺序,从流水线起始端依次进行微批次(micro - batch)处理;而DeepSeek-V3在训练过程中**采用了双向流水线调度设计,即同时从两端进行微批次(micro - batch)处理**,减少流水线气泡,另外DeepSeek将每个 micro - batch 进一步划分为更小的块(chunk),**并对计算和通信进行精细调度,实现两者的高度重叠,提高 GPU 利用率**。 iii.**起始端**:在PP并行中,通常将设备编号较小的一端视为起始端,即图中的 Device 0。 @@ -129,27 +129,27 @@ iv.**末端**:设备编号较大的一端为末端,也就是图中的 Device **2.3 ZeRO-1(DP) 数据并行策略:降低内存占用,加速模型训练** -**1.** **基本概念****:**ZeRO(Zero Redundancy Optimizer)即零冗余优化器,是由微软提出的一种旨在减少分布式训练中内存使用的技术框架;ZeRO-1(DP)结合了零冗余优化器的思想和数据并行策略。 +**1.基本概念:** ZeRO(Zero Redundancy Optimizer)即零冗余优化器,是由微软提出的一种旨在减少分布式训练中内存使用的技术框架;ZeRO-1(DP)结合了零冗余优化器的思想和数据并行策略。 -**2.** **工作原理**:在传统的数据并行中,每个设备都保存完整的优化器状态(如梯度、参数等),这会导致内存冗余;而 ZeRO-1 会将优化器状态划分到不同的设备上,**每个设备只保存一部分优化器状态**,在反向传播计算完成后,各个设备会交换自己所负责的参数的梯度信息,然后根据这些梯度更新各自保存的部分优化器状态和模型参数;通过这种方式,**虽然每个设备只保存了部分信息,但最终所有设备上的模型参数会保持一致**。 +**2.工作原理**:在传统的数据并行中,每个设备都保存完整的优化器状态(如梯度、参数等),这会导致内存冗余;而 ZeRO-1 会将优化器状态划分到不同的设备上,**每个设备只保存一部分优化器状态**,在反向传播计算完成后,各个设备会交换自己所负责的参数的梯度信息,然后根据这些梯度更新各自保存的部分优化器状态和模型参数;通过这种方式,**虽然每个设备只保存了部分信息,但最终所有设备上的模型参数会保持一致**。 -**3.** **核心价值****:** +**3.核心价值:** a)**降低内存占用**:ZeRO-1(DP) 数据并行策略**显著降低了单个 GPU 的内存占用**,让模型能够在有限的显存中进行训练。 -b)**加速模型训练**:首先由于内存占用降低,模型可以处理更大的批量数据,**提高了计算资源的利用率**,从而加快训练速度;另外ZeRO-1 通过在不同GPU之间共享一部分状态变量,**减少了 GPU 之间的通信****开销**,进一步提升了整体训练效率。 +b)**加速模型训练**:首先由于内存占用降低,模型可以处理更大的批量数据,**提高了计算资源的利用率**,从而加快训练速度;另外ZeRO-1 通过在不同GPU之间共享一部分状态变量,**减少了 GPU 之间的通信开销**,进一步提升了整体训练效率。 ## 三、通信优化 **3.1 Moe 路由的All2All优化设计:网络拓扑优化与资源分配优化** -#### **1.** **基本概念****:**在MoE大模型训练中,需要将训练数据按照数据类型或特征分配给最合适的专家模型进行处理,**此时常用到两种数据路由方案**,一种是All to All通信方案,另一种是基于 Magetron 实现的All Reduce和Reduce Scatter通信方案,其优缺点大致如下: +#### **1.基本概念:** 在MoE大模型训练中,需要将训练数据按照数据类型或特征分配给最合适的专家模型进行处理,**此时常用到两种数据路由方案**,一种是All to All通信方案,另一种是基于 Magetron 实现的All Reduce和Reduce Scatter通信方案,其优缺点大致如下: a)**All to All通信**:在数据传输时,根据实际传输的数据量来开辟相应大小的显存空间;这种方案的**优势是显存开销小,劣势是由于是点对点通信、通信效率相对较低**。 b)**All Reduce和Reduce Scatter通信**:这种方案首先是将所有数据路由至每一张GPU,然后通过掩码筛选出每个专家模型真正需要的数据,再进行求和、求最大值等规约操作,并将数据重新合理分配至每一张GPU;这种方案的**优势是通信效率较高,劣势是显存开销比较大**。 -2. **实现方案****:**在 DeepSeek-V3 的实际训练中,**选择了All to All的通信方案**,为了解决All to All在通信效率方面存在的劣势,**采用了众多通信优化手段**,比较核心的有以下几个方面。 +1. **实现方案:** 在 DeepSeek-V3 的实际训练中,**选择了All to All的通信方案**,为了解决All to All在通信效率方面存在的劣势,**采用了众多通信优化手段**,比较核心的有以下几个方面。 a)**限制路由范围**:限制每个训练 token 最多只能被调度到 4 台GPU服务器,**减少跨节点间的 IB 流量**,规避了节点过多时训练 Token 随意路由导致的通信拥塞问题。 @@ -169,7 +169,7 @@ d)**动态资源调整**:DeepSeek-V3 采用了自动调整的资源分配策 2. **精细量化策略**:FP8 虽然在训练速度和显存占用方面优势明显,但是由于需要采取措施对训练数据、模型参数、中间激活值进行量化操作,**容易在训练过程中出现因量化误差导致的模型发散等问题**,影响训练稳定性和模型性能,DeepSeek-V3 在训练过程中采用了分块量化、块级量化、高精度累加**三种精细量化策略**解决这个问题。 -a)**分块量化**:数据划分粒度相对较细,**将数据划分为多个小****块**,然后对每个小块分别进行量化操作,这种方式能更精细地适应数据的局部特征,减少量化误差。 +a)**分块量化**:数据划分粒度相对较细,**将数据划分为多个小块**,然后对每个小块分别进行量化操作,这种方式能更精细地适应数据的局部特征,减少量化误差。 b)**块级量化**:数据划分粒度相对较粗,**对更大的块进行统一量化处理**,这种方式更关注数据的整体特征和分布情况,通过对较大块的数据采用相同的量化参数进行量化,可以简化量化计算过程,降低计算复杂度。 @@ -181,8 +181,8 @@ c)**高精度累加**:在一些关键计算步骤中,虽然中间计算过 **4.2 选择重计算:间隔重计算和选择性重计算优化** -1. **基本概念:**在训练过程中,需要占用大量的显存来存储模型参数、中间结果等数据,当模型参数规模较大或者训练数据量较多时,可能会出现显存不够用的情况;所以业界会采用重计算优化方法,**即在前向传播时不保存上述的中间结果数据,而是在反向传播需要的时候重新计算它们**,大大减少中间结果所占用的显存空间。 -2. **实现方案****:**比较粗暴的实现方案是完全重计算,这种方案因为计算量较大,会大幅增加训练全过程时间,所以业界一直在探索更为高效的选择重计算方案,DeepSeek-V3 在训练过程中主要应用了**间隔重计算和选择性重计算**两种优化手段。 +1. **基本概念:** 在训练过程中,需要占用大量的显存来存储模型参数、中间结果等数据,当模型参数规模较大或者训练数据量较多时,可能会出现显存不够用的情况;所以业界会采用重计算优化方法,**即在前向传播时不保存上述的中间结果数据,而是在反向传播需要的时候重新计算它们**,大大减少中间结果所占用的显存空间。 +2. **实现方案:** 比较粗暴的实现方案是完全重计算,这种方案因为计算量较大,会大幅增加训练全过程时间,所以业界一直在探索更为高效的选择重计算方案,DeepSeek-V3 在训练过程中主要应用了**间隔重计算和选择性重计算**两种优化手段。 a)**间隔重计算**:即“**隔一层重计算一次**” ,在反向传播中对一半层的输入输出进行重计算,另一半层按照传统方式保存中间结果数据。 @@ -190,7 +190,7 @@ b)**选择性重计算**:大模型每一层的计算,通常由**类似 RMSke **4.3 EMA显存优化:异步处理与显存卸载优化** -1. **基本概念****:**EMA是指数移动平均(Exponential Moving Average),它对于模型训练过程中每一步更新得到的参数,计算指数加权平均值,得到一组新的参数,用于监测训练方向,**避免噪声对于模型参数更新的影响,以得到更加稳定、泛化能力更强的参数**;由于EMA需要额外维护一组参数,所以会占用一定的显存空间。 +1. **基本概念:** EMA是指数移动平均(Exponential Moving Average),它对于模型训练过程中每一步更新得到的参数,计算指数加权平均值,得到一组新的参数,用于监测训练方向,**避免噪声对于模型参数更新的影响,以得到更加稳定、泛化能力更强的参数**;由于EMA需要额外维护一组参数,所以会占用一定的显存空间。 2.**实现方案**:DeepSeek-V3 在训练过程中采用了异步处理和显存卸载方法,优化了EMA的显存占用。 @@ -200,9 +200,9 @@ b)**显存卸载**:基于上述异步处理的基础,**可以将EMA计算从 **4.4 头尾参数共享:embedding 层和 lm_head 层共享参数的优化策略** -**1.** **基本概念****:**embedding层位于模型首端,核心作用是把离散的 Token 转换为连续的向量表示,实现这一转换依靠的是一个可学习的权重矩阵,其大小为 vocab_size * hidden_size(词表大小 * 每个 Token 对应的嵌入向量的维度);lm_head 层位于模型的末端,将模型输出的嵌入向量重新映射回 Token 的概率分布,以便计算损失函数,其实现方式同样是依赖一个大小为 vocab_size * hidden_size 的权重矩阵。 +**1.基本概念:** embedding层位于模型首端,核心作用是把离散的 Token 转换为连续的向量表示,实现这一转换依靠的是一个可学习的权重矩阵,其大小为 vocab_size * hidden_size(词表大小 * 每个 Token 对应的嵌入向量的维度);lm_head 层位于模型的末端,将模型输出的嵌入向量重新映射回 Token 的概率分布,以便计算损失函数,其实现方式同样是依赖一个大小为 vocab_size * hidden_size 的权重矩阵。 -**2.****实现方案****:**头尾参数共享,指的是**让 embedding 层和 lm_head 层使用同一个权重矩阵**,这种优化方案由于减少了参数存储量,与之相关的梯度、优化器状态和参数备份等占用的显存也会相应减少,**且共用的权重矩阵有助于模型学习到更稳定和通用的 Token 表示**,从而提高模型的性能和泛化能力。 +**2.实现方案:**头尾参数共享,指的是**让 embedding 层和 lm_head 层使用同一个权重矩阵**,这种优化方案由于减少了参数存储量,与之相关的梯度、优化器状态和参数备份等占用的显存也会相应减少,**且共用的权重矩阵有助于模型学习到更稳定和通用的 Token 表示**,从而提高模型的性能和泛化能力。 ## 总结 diff --git a/DeepSeek技术解析/DeepSeek 模型训练/DeepSeek华丽文风从何而来?业内人士:训练数据、训练策略和迭代优化缺一不可.md b/DeepSeek技术解析/DeepSeek 模型训练/DeepSeek华丽文风从何而来?业内人士:训练数据、训练策略和迭代优化缺一不可.md index c99307c..d232502 100644 --- a/DeepSeek技术解析/DeepSeek 模型训练/DeepSeek华丽文风从何而来?业内人士:训练数据、训练策略和迭代优化缺一不可.md +++ b/DeepSeek技术解析/DeepSeek 模型训练/DeepSeek华丽文风从何而来?业内人士:训练数据、训练策略和迭代优化缺一不可.md @@ -43,7 +43,7 @@ DeepSeek 的回复比其他模型更具某种风格,比如更加活泼、更加严谨等,这其实反映在工程师对于对话数据的构造和提示方式上。而对于模型生成内容质量的影响,一种是将所有数据都通过预训练方式内化到模型内部,一种是通过检索的方式将更加精准的知识召回。前者的泛化性很强,但是容易出现幻觉,毕竟庞大的知识会导致混乱,不能专而精深。而后者则是一种人机协同的方式,检索的内容可以是人类构建的带有一定可信度的网页内容、史料等,使得大模型回复更加可信。 -**赵波也表示,数据质量对模型训练起到决定性作用。可以说数据即模型,有多高质量的数据就可以得到多强大的模型。**随着训练数据的不断收集,大模型研究团队对数据的关注逐渐从数据规模转移到数据质量。大量实例证明:小规模高质量数据能够训练得到比大规模低质量数据更好的模型,并且训练成本更低。赵波举例称,2023 年微软的 Phi-2 模型使用“教科书质量”的训练数据实现了小模型高性能。此外,合成数据也已成为大模型训练数据的重要来源,通过合成可以低成本地获得大量高质量数据。目前,主流大模型的训练都使用了大量的合成数据。赵波和团队也于 2023 年 7 月推出过针对多模态大模型训练的百万级高质量合成数据集 SVIT 等。 +**赵波也表示,数据质量对模型训练起到决定性作用。可以说数据即模型,有多高质量的数据就可以得到多强大的模型。** 随着训练数据的不断收集,大模型研究团队对数据的关注逐渐从数据规模转移到数据质量。大量实例证明:小规模高质量数据能够训练得到比大规模低质量数据更好的模型,并且训练成本更低。赵波举例称,2023 年微软的 Phi-2 模型使用“教科书质量”的训练数据实现了小模型高性能。此外,合成数据也已成为大模型训练数据的重要来源,通过合成可以低成本地获得大量高质量数据。目前,主流大模型的训练都使用了大量的合成数据。赵波和团队也于 2023 年 7 月推出过针对多模态大模型训练的百万级高质量合成数据集 SVIT 等。 ## 三、尾声 diff --git a/Deepseek行业资讯/DeepSeek宣布涨价!.md b/Deepseek行业资讯/DeepSeek宣布涨价!.md index cc77294..ebff2bd 100644 --- a/Deepseek行业资讯/DeepSeek宣布涨价!.md +++ b/Deepseek行业资讯/DeepSeek宣布涨价!.md @@ -57,7 +57,7 @@ DeepSeek-V3等模型 2月9日,阿里云宣布百炼平台全面上线DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Distill-Qwen-32B等6款全尺寸模型,1元最高可享受200万tokens,即日起,所有用户可直接使用。 -官方信息显示,满血版DeepSeek-R1的输入价格为**4元/百万tokens,**可为用户提供强大的数学、代码、自然语言等推理能力,而蒸馏版DeepSeek-R1-Distill-Qwen-7B输入价格仅为**0.5元/百万tokens**,最小尺寸的DeepSeek-R1-Distill-Qwen-1.5B则**面****向用户限时免费**。此外,阿里云百炼还为所有用户提供DeepSeek-R1与DeepSeek-V3 100万的免费tokens。 +官方信息显示,满血版DeepSeek-R1的输入价格为**4元/百万tokens,**可为用户提供强大的数学、代码、自然语言等推理能力,而蒸馏版DeepSeek-R1-Distill-Qwen-7B输入价格仅为**0.5元/百万tokens**,最小尺寸的DeepSeek-R1-Distill-Qwen-1.5B则**面向用户限时免费**。此外,阿里云百炼还为所有用户提供DeepSeek-R1与DeepSeek-V3 100万的免费tokens。 此前,阿里云PAI已支持云上一键部署DeepSeek-V3、DeepSeek-R1及其蒸馏版模型,可为企业和开发者提供更定制化的开发服务。 diff --git a/Deepseek行业资讯/DeepSeek带飞科大讯飞?.md b/Deepseek行业资讯/DeepSeek带飞科大讯飞?.md index 1d2eb94..74cb5bb 100644 --- a/Deepseek行业资讯/DeepSeek带飞科大讯飞?.md +++ b/Deepseek行业资讯/DeepSeek带飞科大讯飞?.md @@ -82,7 +82,7 @@ Scale AI创始人亚历山大·王(Alexandr Wang)在点评DeepSeek时谈到 “有效执行的出口管制是唯一能够阻止中国获得数百万块芯片的手段。”这也是阿莫迪认为阻止中国在AI大模型领域赶超美国的最重要决定因素。  -**硅谷的态度,无疑让国产算力替代方案,正从备选项,逐渐向必选项过渡。**这方面,科大讯飞率先摸着石头过河。 +**硅谷的态度,无疑让国产算力替代方案,正从备选项,逐渐向必选项过渡。** 这方面,科大讯飞率先摸着石头过河。 2023年,科大讯飞便联合华为做了第一个全国产万卡算力集群“飞星一号”,在昇腾910B的基础上,使得大模型训练从对标A100/A800的20%-30%提升到了90%以上,讯飞星火也由此成为中国第一个基于国产算力训练出来的全民开放的大模型。 diff --git a/Deepseek行业资讯/DeepSeek被封杀了.md b/Deepseek行业资讯/DeepSeek被封杀了.md index 4c2d6ae..f81db82 100644 --- a/Deepseek行业资讯/DeepSeek被封杀了.md +++ b/Deepseek行业资讯/DeepSeek被封杀了.md @@ -41,21 +41,21 @@ DeepSeek在全球范围内热度不减少,7天用户数破亿,而且还在 最近看到,不少媒体把DeepSeek提升到了国运的高度,有自信是好事情,但也需要睁眼看看周围环境,以免陷入自嗨,迷失自我。K哥认为DeepSeek接下来将面临4个方面的挑战: -**1)资本战。**AI大模型是资本密集、人才密集、数据密集型行业,进入门槛一度提升到数千万美金。2025年Meta、微软、谷歌、亚马逊四大科技巨头,在AI方面预计投入超过3200亿美元。 +**1)资本战。** AI大模型是资本密集、人才密集、数据密集型行业,进入门槛一度提升到数千万美金。2025年Meta、微软、谷歌、亚马逊四大科技巨头,在AI方面预计投入超过3200亿美元。 有消息称DeepSeek拟启动数亿美元融资,公司估值数十亿美元,如果属实那么DeepSeek将一跃成为国内一线AI独角兽公司,比肩智谱AI(估值200亿人民币)、月之暗面(估值30亿美金)。 虽然现在DeepSeek爆火,后面又有“幻方量化”这只现金牛养着,根本不差钱,但是为了更好地支持后续发展,应对复杂和激烈的竞争环境,引入资本无疑是非常有必要的,手中有粮,心中不慌嘛。 -**2)技术战。**DeepSeek的深度思考能力、模型开源策略,赢得了广大用户喜爱,以及产业界的认可。R1版本发布不久,阿里Qwen也发布了最新开源版,发布新版的还有前文提到的Gemini 2.0推理模型,OpenAI也紧急宣布联网搜索免费。 +**2)技术战。** DeepSeek的深度思考能力、模型开源策略,赢得了广大用户喜爱,以及产业界的认可。R1版本发布不久,阿里Qwen也发布了最新开源版,发布新版的还有前文提到的Gemini 2.0推理模型,OpenAI也紧急宣布联网搜索免费。 “新摩尔定律”之下的AI行业,竞争激烈程度是空前的,DeepSeek想要保持技术领先性,不是一件容易的事。 -**3)人才战。**DeepSeek备受关注的天才少女罗福莉加入小米AI部门,总薪资包1000万+,根据业内消息,至少有10多位DeepSeek员工被国内科技公司、硅谷科技巨头挖角,个个薪资不菲。 +**3)人才战。** DeepSeek备受关注的天才少女罗福莉加入小米AI部门,总薪资包1000万+,根据业内消息,至少有10多位DeepSeek员工被国内科技公司、硅谷科技巨头挖角,个个薪资不菲。 一位猎头朋友告诉我,现在只要是DeepSeek出来的工程师,200万薪资打底,资深一些的500万随便开,核心人员1000万没问题,而且对年龄没有限制。只能说现在AI圈的人才大战,太疯狂了。 -**4)地缘政治战。**前面提到的“星际之门”计划,实际上是美国把AI领域的竞争提升到了国家战略的高度。前阵子DeepSeek就曾遭受到国家级别的网络攻击,IP来自美国。毫无疑问,DeepSeek将要面对的已经不是一两家竞争对手的挑战,而是整个美国AI产业,乃至政府的打压和制裁。 +**4)地缘政治战。** 前面提到的“星际之门”计划,实际上是美国把AI领域的竞争提升到了国家战略的高度。前阵子DeepSeek就曾遭受到国家级别的网络攻击,IP来自美国。毫无疑问,DeepSeek将要面对的已经不是一两家竞争对手的挑战,而是整个美国AI产业,乃至政府的打压和制裁。 **04 AI时代,新巨头诞生** diff --git a/Deepseek行业资讯/看短剧、“交朋友”,DeepSeek挤进中老年社交圈.md b/Deepseek行业资讯/看短剧、“交朋友”,DeepSeek挤进中老年社交圈.md index cacf3c7..22c81f7 100644 --- a/Deepseek行业资讯/看短剧、“交朋友”,DeepSeek挤进中老年社交圈.md +++ b/Deepseek行业资讯/看短剧、“交朋友”,DeepSeek挤进中老年社交圈.md @@ -74,7 +74,7 @@ AI在父母的眼里就像一个公正的第三方,虽然它的字体没有营 与此同时,营销号也抓住了长辈们对AI的信任,从养生赛道到情感鸡汤,“AI视频老年赛道”成了撬动黑灰产领域的新杠杆。 -因为抖音推荐而下载了豆包的父母,同样也在这里接受着AI短视频的轰炸——**AI生成的假新闻专骗眼泪和流量,重新掌握着家族群里的流量密码,而批量复制的AI数字人,不仅制作成本更低、看着还比临时演员扮演的老专家更体面,**你只能暗自祈祷,希望父母在购买他们橱窗里的三无保健品之前,可以先问一嘴DeepSeek。 +因为抖音推荐而下载了豆包的父母,同样也在这里接受着AI短视频的轰炸——**AI生成的假新闻专骗眼泪和流量,重新掌握着家族群里的流量密码,而批量复制的AI数字人,不仅制作成本更低、看着还比临时演员扮演的老专家更体面,** 你只能暗自祈祷,希望父母在购买他们橱窗里的三无保健品之前,可以先问一嘴DeepSeek。 和DeepSeek交个朋友? diff --git a/Deepseek行业资讯/运营商全面接入DeepSeek意味着什么?.md b/Deepseek行业资讯/运营商全面接入DeepSeek意味着什么?.md index 80dd268..3d27fe8 100644 --- a/Deepseek行业资讯/运营商全面接入DeepSeek意味着什么?.md +++ b/Deepseek行业资讯/运营商全面接入DeepSeek意味着什么?.md @@ -30,7 +30,7 @@ 中国银河认为,DeepSeek开源模型推出后,大模型的重心逐步从预训练转移到了后训练,推理端算力规模有望提升,对于硬件端的要求也有所降低,**运营商对算力底座的投资有望与应用端的普及形成良性循环,资本开支的投入逐步转化为规模化提升的回报。** -该机构进一步指出,运营商盈利能力、现金流资产不断改善、资产价值优势凸显,持续增加分红回馈股东,**运营商业绩持续增长或超预期。**当前运营商云业务发展如火如荼,DeepSeek对于成本端的降低有望协同运营商云业务部署以及运营商的海量数据资产,推动运营商第二曲线的快速增长。 +该机构进一步指出,运营商盈利能力、现金流资产不断改善、资产价值优势凸显,持续增加分红回馈股东,**运营商业绩持续增长或超预期。** 当前运营商云业务发展如火如荼,DeepSeek对于成本端的降低有望协同运营商云业务部署以及运营商的海量数据资产,推动运营商第二曲线的快速增长。 具体而言,华泰证券认为,未来电信运营商有望从三个维度受益: diff --git a/关于DeepSeek/什么是 DeepSeek?有什么核心功能?.md b/关于DeepSeek/什么是 DeepSeek?有什么核心功能?.md index c91251d..01a0d73 100644 --- a/关于DeepSeek/什么是 DeepSeek?有什么核心功能?.md +++ b/关于DeepSeek/什么是 DeepSeek?有什么核心功能?.md @@ -12,7 +12,7 @@ DeepSeek(深度求索)是一款由国内团队开发的开源人工智能工 DeepSeek 在多个 NLP 任务上表现出色,包括: -- **文本生成**:自动撰写文章、生成摘要、创作诗歌、撰写广告文案等。 +- **文本生成** :自动撰写文章、生成摘要、创作诗歌、撰写广告文案等。 - **对话系统**:提供类似 ChatGPT 的聊天功能,支持上下文记忆,能进行连贯对话。 - **机器翻译**:支持中英文等语言的翻译,可能基于大规模跨语言语料进行训练。 - **情感分析**:可以识别文本的情感倾向,如正面、负面或中性。 @@ -53,29 +53,29 @@ DeepSeek是由幻方量化创立的人工智能公司推出的一系列AI模型 #### 核心架构方面 -- **混合专家架构(MoE):**MoE架构就像是一个有很多专家的团队。每个专家都擅长处理某一类特定的任务。当模型收到一个任务,比如回答一个问题或者处理一段文本时,它会把这个任务分配给最擅长处理该任务的专家去做,而不是让所有的模块都来处理。比如DeepSeek-V2有2360亿总参数,但处理每个token时,仅210亿参数被激活;DeepSeek -V3总参数达6710亿,但每个输入只激活370亿参数。这样一来,就大大减少了不必要的计算量,让模型处理复杂任务时又快又灵活。 -- **基于Transformer架构:**Transformer架构是DeepSeek的基础,它就像一个超级信息处理器,能处理各种顺序的信息,比如文字、语音等。它的核心是注意力机制,打个比方,我们在看一篇很长的文章时,会自动关注重要的部分,Transformer的注意力机制也能让模型在处理大量信息时,自动聚焦到关键内容上,理解信息之间的关系,不管这些信息是相隔很近还是很远。 +- **混合专家架构(MoE):** MoE架构就像是一个有很多专家的团队。每个专家都擅长处理某一类特定的任务。当模型收到一个任务,比如回答一个问题或者处理一段文本时,它会把这个任务分配给最擅长处理该任务的专家去做,而不是让所有的模块都来处理。比如DeepSeek-V2有2360亿总参数,但处理每个token时,仅210亿参数被激活;DeepSeek -V3总参数达6710亿,但每个输入只激活370亿参数。这样一来,就大大减少了不必要的计算量,让模型处理复杂任务时又快又灵活。 +- **基于Transformer架构:** Transformer架构是DeepSeek的基础,它就像一个超级信息处理器,能处理各种顺序的信息,比如文字、语音等。它的核心是注意力机制,打个比方,我们在看一篇很长的文章时,会自动关注重要的部分,Transformer的注意力机制也能让模型在处理大量信息时,自动聚焦到关键内容上,理解信息之间的关系,不管这些信息是相隔很近还是很远。 ![img](https://pic.yupi.icu/yuyi/1739429542707-90d8785b-42dd-419b-8512-1ce58c45a0b2.png) #### 关键技术方面 -- **多头潜在注意力(MLA)机制:**这是对传统注意力机制的升级。在处理像科研文献、长篇小说这样的长文本时,它能更精准地给句子、段落分配权重,找到文本的核心意思,不会像以前那样容易注意力分散。比如在机器翻译专业领域的长文档时,它能准确理解每个词在上下文中的意思,然后翻译成准确的目标语言。 -- **无辅助损失负载均衡:**在MoE架构中,不同的专家模块可能会出现有的忙不过来,有的却很空闲的情况。无辅助损失负载均衡策略就是来解决这个问题的,它能让各个专家模块的工作负担更均匀,不会出现有的累坏了,有的却没事干的情况,这样能让整个模型的性能更好。 -- **多Token预测(MTP):**传统模型一般是一个一个地预测token,而DeepSeek的多Token预测技术,可以一次预测多个token,就像我们说话时会连续说出几个词来表达一个意思,这样能让模型的推理速度更快,也能让生成的内容更连贯。 -- **FP8混合精度训练:**在训练模型时,数据的精度很重要。FP8混合精度训练就是一种新的训练方法,它能让模型在训练时用更合适的数据精度,既保证了训练的准确性,又能减少计算量,节省时间和成本,让大规模的模型训练变得更容易。 +- **多头潜在注意力(MLA)机制:** 这是对传统注意力机制的升级。在处理像科研文献、长篇小说这样的长文本时,它能更精准地给句子、段落分配权重,找到文本的核心意思,不会像以前那样容易注意力分散。比如在机器翻译专业领域的长文档时,它能准确理解每个词在上下文中的意思,然后翻译成准确的目标语言。 +- **无辅助损失负载均衡:** 在MoE架构中,不同的专家模块可能会出现有的忙不过来,有的却很空闲的情况。无辅助损失负载均衡策略就是来解决这个问题的,它能让各个专家模块的工作负担更均匀,不会出现有的累坏了,有的却没事干的情况,这样能让整个模型的性能更好。 +- **多Token预测(MTP):** 传统模型一般是一个一个地预测token,而DeepSeek的多Token预测技术,可以一次预测多个token,就像我们说话时会连续说出几个词来表达一个意思,这样能让模型的推理速度更快,也能让生成的内容更连贯。 +- **FP8混合精度训练:** 在训练模型时,数据的精度很重要。FP8混合精度训练就是一种新的训练方法,它能让模型在训练时用更合适的数据精度,既保证了训练的准确性,又能减少计算量,节省时间和成本,让大规模的模型训练变得更容易。 #### 模型训练方面 -- **知识蒸馏:**简单来说,就是把一个大模型学到的知识,传递给一个小模型,就像老师把知识教给学生一样。比如DeepSeek-R1通过知识蒸馏,把长链推理模型的能力教给标准的LLM,让标准LLM的推理能力变得更强。 -- **纯强化学习的尝试:**以训练R1-Zero为例,它采用纯强化学习,让模型在试错中学习。比如在游戏场景里,模型尝试不同的操作,根据游戏给出的奖励或惩罚来知道自己做的对不对,慢慢找到最好的操作方法。虽然这种方式下模型输出有一些问题,像无休止重复、可读性差等,但也为模型训练提供了新方向。 -- **多阶段训练和冷启动数据:**DeepSeek-R1引入了多阶段训练和冷启动数据。多阶段训练就是在不同的阶段用不同的训练方法,就像我们学习时,小学、中学、大学的学习方法和重点都不一样。冷启动数据就是在模型开始学习前,给它一些高质量的数据,让它能更好地开始学习,就像我们在做一件事之前,先给一些提示和引导。 +- **知识蒸馏:** 简单来说,就是把一个大模型学到的知识,传递给一个小模型,就像老师把知识教给学生一样。比如DeepSeek-R1通过知识蒸馏,把长链推理模型的能力教给标准的LLM,让标准LLM的推理能力变得更强。 +- **纯强化学习的尝试:** 以训练R1-Zero为例,它采用纯强化学习,让模型在试错中学习。比如在游戏场景里,模型尝试不同的操作,根据游戏给出的奖励或惩罚来知道自己做的对不对,慢慢找到最好的操作方法。虽然这种方式下模型输出有一些问题,像无休止重复、可读性差等,但也为模型训练提供了新方向。 +- **多阶段训练和冷启动数据:** DeepSeek-R1引入了多阶段训练和冷启动数据。多阶段训练就是在不同的阶段用不同的训练方法,就像我们学习时,小学、中学、大学的学习方法和重点都不一样。冷启动数据就是在模型开始学习前,给它一些高质量的数据,让它能更好地开始学习,就像我们在做一件事之前,先给一些提示和引导。 #### 工作流程方面 -- **输入处理与任务判断:**当模型收到输入数据,比如用户的提问时,它会先对数据进行检查、清理和格式化等操作,就像我们拿到一个任务,会先看看是什么类型、难不难。然后通过MoE架构中的路由器机制,判断这个任务该交给哪个专家模块来处理。 -- **调用合适模块进行数据处理:**根据前面的判断结果,模型会调用相应的专家模块来处理数据。如果任务比较复杂,涉及多个领域,就会召集多个模块一起工作,它们之间还会互相传递信息,共同完成任务。 -- **生成输出结果:**相关模块处理完数据后,会把结果整合、优化,看看语句通不通顺、逻辑合不合理等。如果有问题,就会进行调整,直到得到一个满意的结果,再把这个结果返回给用户。 +- **输入处理与任务判断:** 当模型收到输入数据,比如用户的提问时,它会先对数据进行检查、清理和格式化等操作,就像我们拿到一个任务,会先看看是什么类型、难不难。然后通过MoE架构中的路由器机制,判断这个任务该交给哪个专家模块来处理。 +- **调用合适模块进行数据处理:** 根据前面的判断结果,模型会调用相应的专家模块来处理数据。如果任务比较复杂,涉及多个领域,就会召集多个模块一起工作,它们之间还会互相传递信息,共同完成任务。 +- **生成输出结果:** 相关模块处理完数据后,会把结果整合、优化,看看语句通不通顺、逻辑合不合理等。如果有问题,就会进行调整,直到得到一个满意的结果,再把这个结果返回给用户。 @@ -87,9 +87,9 @@ DeepSeek是由幻方量化创立的人工智能公司推出的一系列AI模型 DeepSeek模型在推理能力与速度方面表现出色,展现出强大的竞争力。 -- **高效推理机制:**DeepSeek-V3采用的混合专家架构(MoE)和多头潜在注意力机制(MLA)是其高效推理的关键。MoE架构通过动态选择专家网络,使得每个词元激活的参数量仅为370亿,相较于全参数激活的模型,大幅减少了计算量。MLA机制则通过低秩联合压缩,进一步降低了推理过程中的键值缓存需求,显著提高了推理效率。例如,在处理复杂的自然语言处理任务时,DeepSeek-V3的推理速度比传统模型快30%以上。 -- **多词元预测(MTP)优化:**MTP训练目标允许模型在一次前向传播中预测多个词元,这不仅提升了训练效率,还为推理阶段的推测性解码提供了支持。在实际应用中,DeepSeek-V3能够快速生成高质量的文本内容,例如在文本生成任务中,其生成速度比传统模型快2倍以上,同时保持了较高的生成质量。 -- **硬件优化与量化技术:**DeepSeek支持FP8混合精度训练,并结合硬件优化技术,如FlashAttention优化,充分利用GPU显存带宽优势,进一步加速了推理过程。此外,其动态批处理技术能够根据请求复杂度灵活调整批次大小,优化吞吐量,确保在不同负载下都能保持高效的推理性能。 +- **高效推理机制:** DeepSeek-V3采用的混合专家架构(MoE)和多头潜在注意力机制(MLA)是其高效推理的关键。MoE架构通过动态选择专家网络,使得每个词元激活的参数量仅为370亿,相较于全参数激活的模型,大幅减少了计算量。MLA机制则通过低秩联合压缩,进一步降低了推理过程中的键值缓存需求,显著提高了推理效率。例如,在处理复杂的自然语言处理任务时,DeepSeek-V3的推理速度比传统模型快30%以上。 +- **多词元预测(MTP)优化:** MTP训练目标允许模型在一次前向传播中预测多个词元,这不仅提升了训练效率,还为推理阶段的推测性解码提供了支持。在实际应用中,DeepSeek-V3能够快速生成高质量的文本内容,例如在文本生成任务中,其生成速度比传统模型快2倍以上,同时保持了较高的生成质量。 +- **硬件优化与量化技术:** DeepSeek支持FP8混合精度训练,并结合硬件优化技术,如FlashAttention优化,充分利用GPU显存带宽优势,进一步加速了推理过程。此外,其动态批处理技术能够根据请求复杂度灵活调整批次大小,优化吞吐量,确保在不同负载下都能保持高效的推理性能。 ![img](https://pic.yupi.icu/yuyi/1739428685208-a9b61783-cc46-411c-810a-aa598c1e818f.png) @@ -97,9 +97,9 @@ DeepSeek模型在推理能力与速度方面表现出色,展现出强大的竞 DeepSeek模型在成本效益方面具有显著优势,使其在实际应用中更具竞争力。 -- **训练成本优化:**通过采用FP8混合精度训练,DeepSeek大幅降低了训练过程中的GPU内存需求和存储带宽压力。例如,在训练DeepSeek-V3时,使用FP8精度相比传统的FP16或FP32精度,可以减少约50%的GPU内存占用,从而降低了硬件成本。此外,其高效的训练机制使得模型在预训练阶段能够在不到两个月的时间内完成,相较于其他大规模模型的训练周期,显著减少了训练时间和资源消耗。 -- **推理成本降低:**在推理阶段,DeepSeek的稀疏激活机制和硬件优化技术使其能够在保持高性能的同时,大幅降低计算资源需求。例如,DeepSeek-V3在推理时仅激活370亿参数,相较于全参数激活的模型,显著减少了计算量和内存占用。此外,其量化技术(如INT8量化)和模型蒸馏技术,使得10B级别的模型能够在边缘设备(如手机)上流畅运行,进一步降低了部署成本。 -- **综合成本效益:**从综合成本效益来看,DeepSeek模型在训练和推理阶段的优化措施使其在性能和成本之间达到了良好的平衡。例如,与传统的闭源模型相比,DeepSeek在推理速度上具有显著优势,同时其训练和部署成本更低。这使得DeepSeek模型在企业级应用中更具吸引力,能够为企业提供高效、低成本的人工智能解决方案。 +- **训练成本优化:** 通过采用FP8混合精度训练,DeepSeek大幅降低了训练过程中的GPU内存需求和存储带宽压力。例如,在训练DeepSeek-V3时,使用FP8精度相比传统的FP16或FP32精度,可以减少约50%的GPU内存占用,从而降低了硬件成本。此外,其高效的训练机制使得模型在预训练阶段能够在不到两个月的时间内完成,相较于其他大规模模型的训练周期,显著减少了训练时间和资源消耗。 +- **推理成本降低:** 在推理阶段,DeepSeek的稀疏激活机制和硬件优化技术使其能够在保持高性能的同时,大幅降低计算资源需求。例如,DeepSeek-V3在推理时仅激活370亿参数,相较于全参数激活的模型,显著减少了计算量和内存占用。此外,其量化技术(如INT8量化)和模型蒸馏技术,使得10B级别的模型能够在边缘设备(如手机)上流畅运行,进一步降低了部署成本。 +- **综合成本效益:** 从综合成本效益来看,DeepSeek模型在训练和推理阶段的优化措施使其在性能和成本之间达到了良好的平衡。例如,与传统的闭源模型相比,DeepSeek在推理速度上具有显著优势,同时其训练和部署成本更低。这使得DeepSeek模型在企业级应用中更具吸引力,能够为企业提供高效、低成本的人工智能解决方案。 @@ -109,18 +109,18 @@ DeepSeek模型在成本效益方面具有显著优势,使其在实际应用中 DeepSeek 模型在对话式 AI 领域展现出强大的应用潜力,尤其在客户服务场景中,能够显著提升客户体验和企业运营效率。 -- **智能客服机器人:**基于 DeepSeek 模型的智能客服机器人能够理解并准确回答客户的问题,解决率高达 85% 以上。例如,在金融行业,DeepSeek 模型能够处理复杂的金融咨询问题,如贷款申请流程、理财产品推荐等,平均响应时间仅为 2 秒,极大地提高了客户满意度。 +- **智能客服机器人:** 基于 DeepSeek 模型的智能客服机器人能够理解并准确回答客户的问题,解决率高达 85% 以上。例如,在金融行业,DeepSeek 模型能够处理复杂的金融咨询问题,如贷款申请流程、理财产品推荐等,平均响应时间仅为 2 秒,极大地提高了客户满意度。 -- **多语言支持:**DeepSeek 模型支持多种语言,能够满足跨国企业的客户服务需求。在跨境电商领域,DeepSeek 模型能够实时翻译并回答不同语言的客户咨询,支持的语言种类超过 10 种,覆盖全球主要市场。 +- **多语言支持:** DeepSeek 模型支持多种语言,能够满足跨国企业的客户服务需求。在跨境电商领域,DeepSeek 模型能够实时翻译并回答不同语言的客户咨询,支持的语言种类超过 10 种,覆盖全球主要市场。 -- **个性化服务:**通过分析客户的历史数据和行为模式,DeepSeek 模型能够提供个性化的服务和推荐。在电商行业,DeepSeek 模型根据客户的购买历史和浏览行为,为客户提供个性化的商品推荐,推荐准确率超过 70%,显著提升了客户的购买转化率。 +- **个性化服务:** 通过分析客户的历史数据和行为模式,DeepSeek 模型能够提供个性化的服务和推荐。在电商行业,DeepSeek 模型根据客户的购买历史和浏览行为,为客户提供个性化的商品推荐,推荐准确率超过 70%,显著提升了客户的购买转化率。 #### 内容创作与代码生成 DeepSeek 模型在内容创作和代码生成领域也表现出色,能够大幅提升创作效率和质量。 -- **内容创作:**DeepSeek 模型能够生成高质量的文本内容,涵盖新闻报道、创意写作、文案撰写等多个领域。在新闻媒体行业,DeepSeek 模型能够在短时间内生成新闻报道初稿,准确率超过 90%,帮助记者节省大量时间和精力。在创意写作领域,DeepSeek 模型能够根据用户提供的主题和风格要求,生成具有创意的短篇故事、诗歌等作品,为创作者提供灵感和素材。 -- **代码生成:**DeepSeek 模型在代码生成方面也具有显著优势,能够根据用户的需求生成高质量的代码片段。在软件开发领域,DeepSeek 模型能够根据项目需求生成代码框架和核心逻辑代码,生成代码的准确率超过 80%,显著提高了开发效率。例如,在 Python 开发中,DeepSeek 模型能够根据用户提供的功能描述,生成完整的代码片段,帮助开发者快速实现功能模块。 +- **内容创作:** DeepSeek 模型能够生成高质量的文本内容,涵盖新闻报道、创意写作、文案撰写等多个领域。在新闻媒体行业,DeepSeek 模型能够在短时间内生成新闻报道初稿,准确率超过 90%,帮助记者节省大量时间和精力。在创意写作领域,DeepSeek 模型能够根据用户提供的主题和风格要求,生成具有创意的短篇故事、诗歌等作品,为创作者提供灵感和素材。 +- **代码生成:** DeepSeek 模型在代码生成方面也具有显著优势,能够根据用户的需求生成高质量的代码片段。在软件开发领域,DeepSeek 模型能够根据项目需求生成代码框架和核心逻辑代码,生成代码的准确率超过 80%,显著提高了开发效率。例如,在 Python 开发中,DeepSeek 模型能够根据用户提供的功能描述,生成完整的代码片段,帮助开发者快速实现功能模块。