feat: 更新鱼皮的 AI指南 + 行业资讯

This commit is contained in:
snailrun
2025-04-03 15:34:12 +08:00
parent 4b9b1b83ea
commit 2e4260d232
35 changed files with 2859 additions and 260 deletions
+7 -2
View File
@@ -24,8 +24,13 @@ function generateContent(directory, dirName) {
let content = `# ${dirName}\n\n`;
content += `> 你全面的 AI 知识库,一网打尽最新 AI 资讯,都在 [https://ai.codefather.cn](https://ai.codefather.cn)\n\n`;
// 获取所有一级子目录
const subDirs = getSubDirectories(directory);
// 获取所有一级子目录并按创建时间排序,最新的放在前面
const subDirs = getSubDirectories(directory).sort((a, b) => {
const statA = fs.statSync(a);
const statB = fs.statSync(b);
return statB.birthtime.getTime() - statA.birthtime.getTime();
});
if (subDirs.length > 0) {
// 循环处理每个一级子目录
for (const subDir of subDirs) {
+16 -1
View File
@@ -59,7 +59,22 @@ function generateSidebarConfig(dirPath) {
});
}
if (directories.length > 0) {
directories.forEach((dir) => {
// 创建包含目录信息和创建时间的对象数组
const dirInfos = directories.map((dir) => {
const subDirectoryPath = path.join(currentPath, dir.name);
const stats = fs.statSync(subDirectoryPath);
return {
dir: dir,
birthtime: stats.birthtime,
};
});
// 按创建时间降序排序,最新的目录排在前面
dirInfos.sort((a, b) => b.birthtime.getTime() - a.birthtime.getTime());
// 处理排序后的目录
dirInfos.forEach((dirInfo) => {
const dir = dirInfo.dir;
const subDirectoryPath = path.join(currentPath, dir.name);
const newRelativePath = relativePath ? `${relativePath}/${dir.name}` : dir.name;
+174 -132
View File
@@ -1,6 +1,17 @@
export default [
"",
{
"title": "鱼皮的 AI 指南",
"collapsable": true,
"children": [
"鱼皮的 AI 指南/鱼皮的 AI 指南 - 0、开篇",
"鱼皮的 AI 指南/鱼皮的 AI 指南 - 1、AI 核心概念",
"鱼皮的 AI 指南/鱼皮的 AI 指南 - 2、AI 实用工具",
"鱼皮的 AI 指南/鱼皮的 AI 指南 - 3、AI 编程技巧",
"鱼皮的 AI 指南/鱼皮的 AI 指南 - 4、AI 编程技术"
]
},
{
"title": "AI项目教程",
"collapsable": true,
@@ -12,128 +23,12 @@ export default [
]
},
{
"title": "DeepSeek使用指南",
"title": "关于DeepSeek",
"collapsable": true,
"children": [
"DeepSeek使用指南/🔥DeepSeek 小白快速上手指南",
"DeepSeek使用指南/几个技巧,教你去除文章的 AI 味!",
"DeepSeek使用指南/DeepSeek 发布新模型 V3-0324,附使用教程",
"DeepSeek使用指南/最新清华大学DeepSeek使用手册第1-5版,官方完整版PDF免费下载",
"DeepSeek使用指南/2分钟学会 DeepSeek API,竟然比官方更好用!",
"DeepSeek使用指南/完整攻略:如何用好DeepSeek,一文汇总!",
"DeepSeek使用指南/【汇总】满血版 DeepSeek 第三方使用渠道",
"DeepSeek使用指南/DeepSeek 本地部署教程",
"DeepSeek使用指南/如何在iPhone上用语音调用Deepseek",
"DeepSeek使用指南/普通人能用DeepSeek做什么?20个实用建议",
{
"title": "DeepSeek 提问技巧",
"collapsable": true,
"children": [
"DeepSeek使用指南/DeepSeek 提问技巧/50个常用的DeepSeek模仿风格提示词,去AI味的大杀器",
"DeepSeek使用指南/DeepSeek 提问技巧/我发现了 DeepSeek 去 AI 味的捷径,太香了",
"DeepSeek使用指南/DeepSeek 提问技巧/DeepSeek 提示词基本法则",
"DeepSeek使用指南/DeepSeek 提问技巧/DeepSeek不好用?那是你还不知道这些指令!",
"DeepSeek使用指南/DeepSeek 提问技巧/吐血整理!DeepSeek神级指令,好用到爆!",
"DeepSeek使用指南/DeepSeek 提问技巧/普通人也能轻松掌握的 20 个 DeepSeek 高频提示词(2025版)"
]
}
]
},
{
"title": "DeepSeek应用场景",
"collapsable": true,
"children": [
{
"title": "DeepSeek + 内容创作",
"collapsable": true,
"children": [
"DeepSeek应用场景/DeepSeek + 内容创作/3秒让DeepSeek写出爆款小红书",
"DeepSeek应用场景/DeepSeek + 内容创作/人有多大胆,地有多大产:如何用DeepSeek写长篇小说",
"DeepSeek应用场景/DeepSeek + 内容创作/如何利用DeepSeek进行高效内容创作",
"DeepSeek应用场景/DeepSeek + 内容创作/用DeepSeek做小红书真的太牛了!轻轻松松打造爆款笔记",
"DeepSeek应用场景/DeepSeek + 内容创作/用DeepSeek写文章?这4个骚操作让你躺平也能出爆款!(含提示词)",
"DeepSeek应用场景/DeepSeek + 内容创作/DeepSeek使用指南:提升公文、新闻与广告文案写作效率的三大技巧 ",
"DeepSeek应用场景/DeepSeek + 内容创作/AI写小说怎么写?deepseek帮你写小说教程"
]
},
{
"title": "DeepSeek + 创意设计",
"collapsable": true,
"children": [
"DeepSeek应用场景/DeepSeek + 创意设计/和 Deepseek 联手,做个哪吒的乾坤圈视频",
"DeepSeek应用场景/DeepSeek + 创意设计/5 个不得不收藏的 Deepseek 王炸组合!",
"DeepSeek应用场景/DeepSeek + 创意设计/DeepSeek一句话搞定修图难题",
"DeepSeek应用场景/DeepSeek + 创意设计/deepseek+数字人王炸组合使用方法",
"DeepSeek应用场景/DeepSeek + 创意设计/用 deepseek 做 AI 视频,绝了,和抄作业一样简单!",
"DeepSeek应用场景/DeepSeek + 创意设计/绝绝子!用deepseek做AI视频,涨粉10W+(附保姆级教程)",
"DeepSeek应用场景/DeepSeek + 创意设计/这怕是全网最强的 DeepSeek 图片教程吧,赶紧收藏了!"
]
},
{
"title": "DeepSeek + 办公效率",
"collapsable": true,
"children": [
"DeepSeek应用场景/DeepSeek + 办公效率/如何用DeepSeek更高效地工作:10个实用技巧",
"DeepSeek应用场景/DeepSeek + 办公效率/手把手教你在word中接入deepseek,秒生文档材料",
"DeepSeek应用场景/DeepSeek + 办公效率/法律人保姆级deepseek使用指南(附指令版)",
"DeepSeek应用场景/DeepSeek + 办公效率/DeepSeek R1 + 个人知识库,直接起飞!",
"DeepSeek应用场景/DeepSeek + 办公效率/DeepSeek嵌入到Excel,提升10倍工作效率,太牛了!",
"DeepSeek应用场景/DeepSeek + 办公效率/DeepSeek配合KIMI,自动生成PPT,感觉自己要失业了!",
"DeepSeek应用场景/DeepSeek + 办公效率/WPS里装上deepseek,简直就是办公神器",
"DeepSeek应用场景/DeepSeek + 办公效率/利用deepseek建立专属销售知识库",
"DeepSeek应用场景/DeepSeek + 办公效率/教师必备DeepSeek使用指南来了!5大教学应用场景+实操案例+隐藏用法"
]
},
{
"title": "DeepSeek + 理财",
"collapsable": true,
"children": [
"DeepSeek应用场景/DeepSeek + 理财/DeepSeek告诉我:30岁到40岁,一般会拥有这么多的存款",
"DeepSeek应用场景/DeepSeek + 理财/用DeepSeek搞钱,日赚百万",
"DeepSeek应用场景/DeepSeek + 理财/普通人如何通过炒股买基金赚到100万?",
"DeepSeek应用场景/DeepSeek + 理财/用Deepseek回答:如果有100万闲钱,几年内不用,该怎么理财?"
]
},
{
"title": "DeepSeek + 编程开发",
"collapsable": true,
"children": [
"DeepSeek应用场景/DeepSeek + 编程开发/3 小时做游戏,10 天狂赚 28 万!程序员用 AI 躺赚?",
"DeepSeek应用场景/DeepSeek + 编程开发/💗用 DeepSeek 给对象做个网站,她一定感动坏了",
"DeepSeek应用场景/DeepSeek + 编程开发/DeepSeek装进VSCode,编程非常丝滑!",
"DeepSeek应用场景/DeepSeek + 编程开发/教你用DeepSeek+Clien,从0到1开发一个APP",
"DeepSeek应用场景/DeepSeek + 编程开发/DeepSeek接入Python,一般电脑也能飞速跑,确实可以封神了!"
]
}
]
},
{
"title": "DeepSeek技术解析",
"collapsable": true,
"children": [
{
"title": "DeepSeek 技术分析",
"collapsable": true,
"children": [
"DeepSeek技术解析/DeepSeek 技术分析/DeepSeek最强专业拆解:清交复教授超硬核解读",
"DeepSeek技术解析/DeepSeek 技术分析/DeepSeek的优势与不足",
"DeepSeek技术解析/DeepSeek 技术分析/一文详解 DeepSeek 技术架构",
"DeepSeek技术解析/DeepSeek 技术分析/DeepSeek vs. ChatGPT:谁才是真正的王者?",
"DeepSeek技术解析/DeepSeek 技术分析/DeepSeek 爆火逻辑、行业影响及对未来AI发展的启示",
"DeepSeek技术解析/DeepSeek 技术分析/DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方”",
"DeepSeek技术解析/DeepSeek 技术分析/DeepSeek技术解读:从V3到R1的MoE架构创新"
]
},
{
"title": "DeepSeek 模型训练",
"collapsable": true,
"children": [
"DeepSeek技术解析/DeepSeek 模型训练/DeepSeek-R1的四个训练阶段",
"DeepSeek技术解析/DeepSeek 模型训练/DeepSeek-R1的训练流程强化学习(RL)阶段采用了GRPO算法",
"DeepSeek技术解析/DeepSeek 模型训练/DeepSeek-V3 高效训练关键技术分析",
"DeepSeek技术解析/DeepSeek 模型训练/DeepSeek华丽文风从何而来?业内人士:训练数据、训练策略和迭代优化缺一不可"
]
}
"关于DeepSeek/DeepSeek 创始团队介绍",
"关于DeepSeek/DeepSeek 发展历程",
"关于DeepSeek/什么是 DeepSeek"
]
},
{
@@ -150,6 +45,49 @@ export default [
"title": "Deepseek行业资讯",
"collapsable": true,
"children": [
{
"title": "2025-04",
"collapsable": true,
"children": [
"Deepseek行业资讯/2025-04/阿里秘密研发新模型将发布,影响力指标成最重要考核",
"Deepseek行业资讯/2025-04/有史以来最大力度!苹果进军医疗,计划明年推出AI医生 - 华尔街见闻",
"Deepseek行业资讯/2025-04/一张照片生成连贯全片!Runway Gen-4 深夜发布,终于捅破 AI 视频多年的天花板",
"Deepseek行业资讯/2025-04/智谱发布 AutoGLM 沉思:首个免费、具备深度研究和操作能力的 AI Agent",
"Deepseek行业资讯/2025-04/MiniMax Audio 发布 Speech-02 模型,单次输入支持 20 万字符",
"Deepseek行业资讯/2025-04/亚马逊推出 Nova Act:可操控网页浏览器的 AI 智能体",
"Deepseek行业资讯/2025-04/腾讯元宝识图放大招!一次传 10 张图,朋友圈文案、电子书金句全搞定!",
"Deepseek行业资讯/2025-04/售价超 7000 元,Meta 想用眼镜取代 iPhone",
"Deepseek行业资讯/2025-04/百度飞桨框架 3.0 正式版发布",
"Deepseek行业资讯/2025-04/OpenAI 上线“OpenAI 学院”,已提供数十小时免费 AI 学习资源",
"Deepseek行业资讯/2025-04/xAI 再更新,各项能力卓越"
]
},
{
"title": "2025-03",
"collapsable": true,
"children": [
"Deepseek行业资讯/2025-03/阿里开源全新推理模型 QwQ-32B,一台 Mac 就能实现顶级推理能力",
"Deepseek行业资讯/2025-03/实测 Manus:首个真干活 AI,中国造(附 50 个用例 + 拆解)",
"Deepseek行业资讯/2025-03/用于临床工作流程的新 AI 助手,微软推出 Microsoft Dragon Copilot",
"Deepseek行业资讯/2025-03/Model Context Protocol,看这一篇就够了",
"Deepseek行业资讯/2025-03/谷歌 Gemini 新增 Canvas 与音频概览功能,提升用户生产力",
"Deepseek行业资讯/2025-03/马斯克进军 AI 视频,收购视频生成初创公司,4 人 13 个月打造类 Sora 模型",
"Deepseek行业资讯/2025-03/百度推出两款 AI 大模型",
"Deepseek行业资讯/2025-03/Claude 现已支持网络搜索功能",
"Deepseek行业资讯/2025-03/DeepSeek-V3 模型更新,各项能力全面进阶",
"Deepseek行业资讯/2025-03/腾讯混元 T1 正式版发布",
"Deepseek行业资讯/2025-03/Ideogram 正式发布 3.0 版本模型:真实感与创意表现再突破",
"Deepseek行业资讯/2025-03/新推理模型来了!阿里 Qwen Chat 平台已上线“深度思考”功能,支持联网搜索",
"Deepseek行业资讯/2025-03/刚刚,GPT-4o 原生图像生成上线,P 图、生图也就一嘴的事",
"Deepseek行业资讯/2025-03/谷歌发布 Gemini 2.5 人工智能模型,实现复杂思维",
"Deepseek行业资讯/2025-03/谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西",
"Deepseek行业资讯/2025-03/DeepSeek回答现在能不能入手黄金 将维持高位震荡",
"Deepseek行业资讯/2025-03/DeepSeek官方辟谣:R2发布为假消息",
"Deepseek行业资讯/2025-03/高校,为何最快拥抱DeepSeek",
"Deepseek行业资讯/2025-03/跨境电商试练AIDeepSeek取代了ChatGPT",
"Deepseek行业资讯/2025-03/不装了!OpenAI力促特朗普对中国AI下死手,出台“AI出口管制”"
]
},
{
"title": "2025-02",
"collapsable": true,
@@ -183,28 +121,132 @@ export default [
"Deepseek行业资讯/2025-02/DeepSeek宣布涨价!",
"Deepseek行业资讯/2025-02/DeepSeek带飞科大讯飞?"
]
},
}
]
},
{
"title": "DeepSeek技术解析",
"collapsable": true,
"children": [
{
"title": "2025-03",
"title": "DeepSeek 模型训练",
"collapsable": true,
"children": [
"Deepseek行业资讯/2025-03/谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西",
"Deepseek行业资讯/2025-03/DeepSeek回答现在能不能入手黄金 将维持高位震荡",
"Deepseek行业资讯/2025-03/DeepSeek官方辟谣:R2发布为假消息",
"Deepseek行业资讯/2025-03/高校,为何最快拥抱DeepSeek",
"Deepseek行业资讯/2025-03/跨境电商试练AIDeepSeek取代了ChatGPT",
"Deepseek行业资讯/2025-03/不装了!OpenAI力促特朗普对中国AI下死手,出台“AI出口管制”"
"DeepSeek技术解析/DeepSeek 模型训练/DeepSeek-R1的四个训练阶段",
"DeepSeek技术解析/DeepSeek 模型训练/DeepSeek-R1的训练流程强化学习(RL)阶段采用了GRPO算法",
"DeepSeek技术解析/DeepSeek 模型训练/DeepSeek-V3 高效训练关键技术分析",
"DeepSeek技术解析/DeepSeek 模型训练/DeepSeek华丽文风从何而来?业内人士:训练数据、训练策略和迭代优化缺一不可"
]
},
{
"title": "DeepSeek 技术分析",
"collapsable": true,
"children": [
"DeepSeek技术解析/DeepSeek 技术分析/DeepSeek最强专业拆解:清交复教授超硬核解读",
"DeepSeek技术解析/DeepSeek 技术分析/DeepSeek的优势与不足",
"DeepSeek技术解析/DeepSeek 技术分析/一文详解 DeepSeek 技术架构",
"DeepSeek技术解析/DeepSeek 技术分析/DeepSeek vs. ChatGPT:谁才是真正的王者?",
"DeepSeek技术解析/DeepSeek 技术分析/DeepSeek 爆火逻辑、行业影响及对未来AI发展的启示",
"DeepSeek技术解析/DeepSeek 技术分析/DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方”",
"DeepSeek技术解析/DeepSeek 技术分析/DeepSeek技术解读:从V3到R1的MoE架构创新"
]
}
]
},
{
"title": "关于DeepSeek",
"title": "DeepSeek应用场景",
"collapsable": true,
"children": [
"关于DeepSeek/DeepSeek 创始团队介绍",
"关于DeepSeek/DeepSeek 发展历程",
"关于DeepSeek/什么是 DeepSeek"
{
"title": "DeepSeek + 理财",
"collapsable": true,
"children": [
"DeepSeek应用场景/DeepSeek + 理财/DeepSeek告诉我:30岁到40岁,一般会拥有这么多的存款",
"DeepSeek应用场景/DeepSeek + 理财/用DeepSeek搞钱,日赚百万",
"DeepSeek应用场景/DeepSeek + 理财/普通人如何通过炒股买基金赚到100万?",
"DeepSeek应用场景/DeepSeek + 理财/用Deepseek回答:如果有100万闲钱,几年内不用,该怎么理财?"
]
},
{
"title": "DeepSeek + 编程开发",
"collapsable": true,
"children": [
"DeepSeek应用场景/DeepSeek + 编程开发/3 小时做游戏,10 天狂赚 28 万!程序员用 AI 躺赚?",
"DeepSeek应用场景/DeepSeek + 编程开发/💗用 DeepSeek 给对象做个网站,她一定感动坏了",
"DeepSeek应用场景/DeepSeek + 编程开发/DeepSeek装进VSCode,编程非常丝滑!",
"DeepSeek应用场景/DeepSeek + 编程开发/教你用DeepSeek+Clien,从0到1开发一个APP",
"DeepSeek应用场景/DeepSeek + 编程开发/DeepSeek接入Python,一般电脑也能飞速跑,确实可以封神了!"
]
},
{
"title": "DeepSeek + 创意设计",
"collapsable": true,
"children": [
"DeepSeek应用场景/DeepSeek + 创意设计/和 Deepseek 联手,做个哪吒的乾坤圈视频",
"DeepSeek应用场景/DeepSeek + 创意设计/5 个不得不收藏的 Deepseek 王炸组合!",
"DeepSeek应用场景/DeepSeek + 创意设计/DeepSeek一句话搞定修图难题",
"DeepSeek应用场景/DeepSeek + 创意设计/deepseek+数字人王炸组合使用方法",
"DeepSeek应用场景/DeepSeek + 创意设计/用 deepseek 做 AI 视频,绝了,和抄作业一样简单!",
"DeepSeek应用场景/DeepSeek + 创意设计/绝绝子!用deepseek做AI视频,涨粉10W+(附保姆级教程)",
"DeepSeek应用场景/DeepSeek + 创意设计/这怕是全网最强的 DeepSeek 图片教程吧,赶紧收藏了!"
]
},
{
"title": "DeepSeek + 办公效率",
"collapsable": true,
"children": [
"DeepSeek应用场景/DeepSeek + 办公效率/如何用DeepSeek更高效地工作:10个实用技巧",
"DeepSeek应用场景/DeepSeek + 办公效率/手把手教你在word中接入deepseek,秒生文档材料",
"DeepSeek应用场景/DeepSeek + 办公效率/法律人保姆级deepseek使用指南(附指令版)",
"DeepSeek应用场景/DeepSeek + 办公效率/DeepSeek R1 + 个人知识库,直接起飞!",
"DeepSeek应用场景/DeepSeek + 办公效率/DeepSeek嵌入到Excel,提升10倍工作效率,太牛了!",
"DeepSeek应用场景/DeepSeek + 办公效率/DeepSeek配合KIMI,自动生成PPT,感觉自己要失业了!",
"DeepSeek应用场景/DeepSeek + 办公效率/WPS里装上deepseek,简直就是办公神器",
"DeepSeek应用场景/DeepSeek + 办公效率/利用deepseek建立专属销售知识库",
"DeepSeek应用场景/DeepSeek + 办公效率/教师必备DeepSeek使用指南来了!5大教学应用场景+实操案例+隐藏用法"
]
},
{
"title": "DeepSeek + 内容创作",
"collapsable": true,
"children": [
"DeepSeek应用场景/DeepSeek + 内容创作/3秒让DeepSeek写出爆款小红书",
"DeepSeek应用场景/DeepSeek + 内容创作/人有多大胆,地有多大产:如何用DeepSeek写长篇小说",
"DeepSeek应用场景/DeepSeek + 内容创作/如何利用DeepSeek进行高效内容创作",
"DeepSeek应用场景/DeepSeek + 内容创作/用DeepSeek做小红书真的太牛了!轻轻松松打造爆款笔记",
"DeepSeek应用场景/DeepSeek + 内容创作/用DeepSeek写文章?这4个骚操作让你躺平也能出爆款!(含提示词)",
"DeepSeek应用场景/DeepSeek + 内容创作/DeepSeek使用指南:提升公文、新闻与广告文案写作效率的三大技巧 ",
"DeepSeek应用场景/DeepSeek + 内容创作/AI写小说怎么写?deepseek帮你写小说教程"
]
}
]
},
{
"title": "DeepSeek使用指南",
"collapsable": true,
"children": [
"DeepSeek使用指南/🔥DeepSeek 小白快速上手指南",
"DeepSeek使用指南/几个技巧,教你去除文章的 AI 味!",
"DeepSeek使用指南/DeepSeek 发布新模型 V3-0324,附使用教程",
"DeepSeek使用指南/最新清华大学DeepSeek使用手册第1-5版,官方完整版PDF免费下载",
"DeepSeek使用指南/2分钟学会 DeepSeek API,竟然比官方更好用!",
"DeepSeek使用指南/完整攻略:如何用好DeepSeek,一文汇总!",
"DeepSeek使用指南/【汇总】满血版 DeepSeek 第三方使用渠道",
"DeepSeek使用指南/DeepSeek 本地部署教程",
"DeepSeek使用指南/如何在iPhone上用语音调用Deepseek",
"DeepSeek使用指南/普通人能用DeepSeek做什么?20个实用建议",
{
"title": "DeepSeek 提问技巧",
"collapsable": true,
"children": [
"DeepSeek使用指南/DeepSeek 提问技巧/50个常用的DeepSeek模仿风格提示词,去AI味的大杀器",
"DeepSeek使用指南/DeepSeek 提问技巧/我发现了 DeepSeek 去 AI 味的捷径,太香了",
"DeepSeek使用指南/DeepSeek 提问技巧/DeepSeek 提示词基本法则",
"DeepSeek使用指南/DeepSeek 提问技巧/DeepSeek不好用?那是你还不知道这些指令!",
"DeepSeek使用指南/DeepSeek 提问技巧/吐血整理!DeepSeek神级指令,好用到爆!",
"DeepSeek使用指南/DeepSeek 提问技巧/普通人也能轻松掌握的 20 个 DeepSeek 高频提示词(2025版)"
]
}
]
}
]
@@ -0,0 +1,22 @@
# Claude 现已支持网络搜索功能
2025 年 3 月 20 日
![一只手持地球的插画](https://www.anthropic.com/_next/image?url=https%3A%2F%2Fwww-cdn.anthropic.com%2Fimages%2F4zrzovbb%2Fwebsite%2F7046dcc04109d6ebd834c5109721387c974b5e14-2880x1620.png&w=3840&q=75)
您现在可以使用 Claude 进行互联网搜索,以提供更及时和相关的回答。借助网络搜索功能,Claude 能够获取最新的事件和信息,从而在需要最新数据的任务中提高准确性。
当 Claude 将网络信息整合到回答中时,它会提供直接引用来源,方便您核实事实。无需自行查找搜索结果,Claude 会以对话形式处理和呈现相关来源。这一功能通过实时洞察扩展了 Claude 的广泛知识库,使其能够基于更当前的信息提供答案。
使用 Claude 网络搜索的常见场景:
- **销售团队** 可以通过分析行业趋势,了解关键举措和痛点,从而优化客户规划并提高成交率。
- **金融分析师** 可以评估当前市场数据、财报和行业趋势,以做出更好的投资决策并为财务模型假设提供依据。
- **研究人员** 可以通过搜索网络上的主要来源,发现新兴趋势并识别当前文献中的空白,从而撰写更有力的资助提案和文献综述。
- **购物者** 可以比较不同来源的产品功能、价格和评价,以做出更明智的购买决策。
## 开始使用
网络搜索功能现已作为预览功能向美国的所有付费 Claude 用户开放。免费计划用户和其他国家/地区的支持将很快推出。要开始使用,请在您的[个人资料设置](https://claude.ai/settings/profile#feature-preview)中启用网络搜索功能,并与 Claude 3.7 Sonnet 开始对话。在适用的情况下,Claude 会搜索网络以完善其回答。
> 来源:claude 官方博客
@@ -0,0 +1,57 @@
# DeepSeek-V3 模型更新,各项能力全面进阶
DeepSeek V3 模型已完成小版本升级,目前版本号 DeepSeek-V3-0324,用户登录官方网页、APP、小程序进入对话界面后, **关闭深度思考** 即可体验。API 接口和使用方式保持不变。
如非复杂推理任务,建议使用新版本 V3 模型,即刻享受速度更加流畅、效果全面提升的对话体验。
---
## 模型能力提升一览
### 推理任务表现提高
新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。
![](https://cdn.deepseek.com/api-docs/v3_0324_benchmark.webp)
### 前端开发能力增强
在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。
![](https://cdn.deepseek.com/api-docs/v3_0324_gif.gif)
### 中文写作升级
在中文写作任务方面,新版 V3 模型基于 R1 的写作水平进行了进一步优化,同时特别提升了中长篇文本创作的内容质量。
![](https://cdn.deepseek.com/api-docs/v3_0324_example_1.webp)
![](https://cdn.deepseek.com/api-docs/v3_0324_example_2.webp)
### 中文搜索能力优化
新版 V3 模型可以在联网搜索场景下,对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。
![](https://cdn.deepseek.com/api-docs/v3_0324_example_3.webp)
此外,新版 V3 模型在 **工具调用、角色扮演、问答闲聊** 等方面也得到了一定幅度的能力提升。
---
## 模型开源
DeepSeek-V3-0324 与之前的 DeepSeek-V3 使用同样的 base 模型,仅改进了后训练方法。私有化部署时只需要更新 checkpoint 和 tokenizer_config.jsontool calls 相关变动)。模型参数约 660B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。V3-0324 模型权重下载请参考:
- Model Scope: [https://modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324](https://modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324)
- Huggingface: [https://huggingface.co/deepseek-ai/DeepSeek-V3-0324](https://huggingface.co/deepseek-ai/DeepSeek-V3-0324)
与 DeepSeek-R1 保持一致,此次我们的开源仓库(包括模型权重)统一采用 MIT License,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
- [模型能力提升一览](https://api-docs.deepseek.com/zh-cn/news/news250325#%E6%A8%A1%E5%9E%8B%E8%83%BD%E5%8A%9B%E6%8F%90%E5%8D%87%E4%B8%80%E8%A7%88)
- [推理任务表现提高](https://api-docs.deepseek.com/zh-cn/news/news250325#%E6%8E%A8%E7%90%86%E4%BB%BB%E5%8A%A1%E8%A1%A8%E7%8E%B0%E6%8F%90%E9%AB%98)
- [前端开发能力增强](https://api-docs.deepseek.com/zh-cn/news/news250325#%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91%E8%83%BD%E5%8A%9B%E5%A2%9E%E5%BC%BA)
- [中文写作升级](https://api-docs.deepseek.com/zh-cn/news/news250325#%E4%B8%AD%E6%96%87%E5%86%99%E4%BD%9C%E5%8D%87%E7%BA%A7)
- [中文搜索能力优化](https://api-docs.deepseek.com/zh-cn/news/news250325#%E4%B8%AD%E6%96%87%E6%90%9C%E7%B4%A2%E8%83%BD%E5%8A%9B%E4%BC%98%E5%8C%96)
- [模型开源](https://api-docs.deepseek.com/zh-cn/news/news250325#%E6%A8%A1%E5%9E%8B%E5%BC%80%E6%BA%90)
> 来源:deepseek 官方
@@ -0,0 +1,13 @@
# Ideogram 正式发布 3.0 版本模型:真实感与创意表现再突破
Ideogram 官方宣布推出其最新图像生成模型——Ideogram3.0。这一版本在真实感、创意表现力和风格一致性上实现了显著突破,被认为是图像生成领域的一次重要里程碑。新模型不仅对标 GPT-4o 等顶级 AI 系统,还以其高效性能和创新功能吸引了广泛关注。
Ideogram3. 0 在文本渲染能力上取得了质的飞跃。相较于市场上大多数图像生成模型,该版本能够生成清晰可读、风格统一的艺术化文本,支持复杂排版设计,包括海报标题、宣传标语、品牌口号及多行文字组合。其支持多字体、多语言和多层次设计的功能,使其在平面设计和创意应用场景中尤为突出。此外,新模型新增了“Style Reference”和“Random Style”功能,用户可通过指定风格或随机探索,快速生成多样化且高质量的图像内容。
在图像质量方面,Ideogram3. 0 的照片真实感、细节处理能力以及对用户提示的理解深度均达到新高度。专业测试显示,其在图文对齐、渲染精度和创意输出上表现优异,甚至超越了 Imagen3 等同类竞品。得益于优化的算法架构,新模型生成速度大幅提升,为用户提供了更高效的创作体验。
Ideogram3. 0 的发布标志着图像生成技术在实用性与艺术性结合上的又一次进步。目前,该模型已向全球用户免费开放,其强大的功能和易用性预计将为设计师、艺术家及内容创作者带来深远影响,助推 AI 驱动的创意产业迈向新阶段。
[Ideogram3.0](https://www.aibase.com/zh/search/Ideogram3.0&type=0) [图像生成模型](https://www.aibase.com/zh/search/%E5%9B%BE%E5%83%8F%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B&type=0) [AI](https://www.aibase.com/zh/search/AI&type=0) [GPT-4o](https://www.aibase.com/zh/search/GPT-4o&type=0)
> 本文来自 AIbase 日报
@@ -0,0 +1,532 @@
# Model Context Protocol,看这一篇就够了
![MCP (Model Context Protocol),一篇就够了。](https://picx.zhimg.com/v2-aa37ae29a25e9d39fc019de2fa8c6e75_1440w.jpg?source=172ae18b)
最近 MCP 这个关键词逐渐活跃在我所浏览的一些文章及评论区中。突然发现我对它仅有粗糙的理解,我决定深入学习并记录一下。
在阅读这篇文章前,我也简单地浏览了现有介绍 MCP 的文章。我发现大部分文章停留在“翻译” [https://modelcontextprotocol.io/](https://link.zhihu.com/?target=https%3A//modelcontextprotocol.io/) 网站中的内容,或者花时间在绝大部分用户不关心的技术细节上(还有一些纯 AI 文)。
因此,我将从使用者的角度出发,分享实用内容,并以一个示例展示 MCP 的开发过程与实际应用作为结尾。本篇旨在回答以下三个问题:
- 什么是 MCP
- 为什么需要 MCP
- 作为用户,我们如何 **使用**/开发 MCP
当然,一篇文章远远不足以讲透 MCP 的所有概念,只能尽力萃取最重要的内容供大家阅读,欢迎讨论。
Update 2025/03/15 进一步补充了关于第五节原理的解释。
## 1\. What is MCP?
MCP 起源于 2024 年 11 月 25 日 [Anthropic](https://zhida.zhihu.com/search?content_id=254822599&content_type=Article&match_order=1&q=Anthropic&zd_token=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJ6aGlkYV9zZXJ2ZXIiLCJleHAiOjE3NDM4MzQwMDIsInEiOiJBbnRocm9waWMiLCJ6aGlkYV9zb3VyY2UiOiJlbnRpdHkiLCJjb250ZW50X2lkIjoyNTQ4MjI1OTksImNvbnRlbnRfdHlwZSI6IkFydGljbGUiLCJtYXRjaF9vcmRlciI6MSwiemRfdG9rZW4iOm51bGx9.4EBFlFdfKyjVmM6AYwpAoEesLEZB2f3RIT-e-QtOfUs&zhida_source=entity) 发布的文章: [Introducing the Model Context Protocol](https://link.zhihu.com/?target=https%3A//www.anthropic.com/news/model-context-protocol)。
MCPModel Context Protocol,模型上下文协议)定义了应用程序和 AI 模型之间交换上下文信息的方式。这使得开发者能够 **以一致的方式将各种数据源、工具和功能连接到 AI 模型**(一个中间协议层),就像 USB-C 让不同设备能够通过相同的接口连接一样。MCP 的目标是创建一个通用标准,使 AI 应用程序的开发和集成变得更加简单和统一。
所谓一图胜千言,我这里引用一些制作的非常精良的图片来帮助理解:
![](https://pic4.zhimg.com/v2-3a242914e1f4958e631dd158e043b7c3_1440w.jpg)
可以看出,MCP 就是以更标准的方式让 LLM Chat 使用不同工具,更简单的可视化如下图所示,这样你应该更容易理解“中间协议层”的概念了。Anthropic 旨在实现 LLM Tool Call 的标准。
![](https://picx.zhimg.com/v2-9fe7fb51f264338a079a444eefa041b1_1440w.jpg)
mcp 简单理解
> 为保证阅读的流畅性,本文将 MCP Host / Client / Server 的定义后置。初学者/用户可暂不关注这些概念,不影响对 MCP 的使用。
## 2\. Why MCP?
我认为 MCP 的出现是 prompt engineering 发展的产物。更结构化的上下文信息对模型的 performance 提升是显著的。我们在构造 prompt 时,希望能提供一些更 specific 的信息(比如本地文件,数据库,一些网络实时信息等)给模型,这样模型更容易理解真实场景中的问题。
**想象一下没有 MCP 之前我们会怎么做**?我们可能会人工从数据库中筛选或者使用工具检索可能需要的信息,手动的粘贴到 prompt 中。随着我们要解决的问题越来越复杂, **手工** 把信息引入到 prompt 中会变得越来越困难。
为了克服手工 prompt 的局限性,许多 LLM 平台(如 OpenAI、Google)引入了 `function call` 功能。这一机制允许模型在需要时调用预定义的函数来获取数据或执行操作,显著提升了自动化水平。
但是 function call 也有其局限性(我对于 function call vs MCP 的理解不一定成熟,欢迎大家补充),我认为重点在于 **function call 平台依赖性强**,不同 LLM 平台的 function call API 实现差异较大。例如,OpenAI 的函数调用方式与 Google 的不兼容,开发者在切换模型时需要重写代码,增加了适配成本。除此之外,还有安全性,交互性等问题。
**数据与工具本身是客观存在的**,只不过我们希望将数据连接到模型的这个环节可以更智能更统一。Anthropic 基于这样的痛点设计了 MCP,充当 AI 模型的"万能转接头",让 LLM 能轻松的获取数据或者调用工具。更具体的说 MCP 的优势在于:
- **生态** \- MCP 提供很多现成的插件,你的 AI 可以直接使用。
- **统一性** \- 不限制于特定的 AI 模型,任何支持 MCP 的模型都可以灵活切换。
- **数据安全** \- 你的敏感数据留在自己的电脑上,不必全部上传。(因为我们可以自行设计接口确定传输哪些数据)
## 3\. 用户如何使用 MCP
对于用户来说,我们并不关心 MCP 是如何实现的,通常我们只考虑如何更简单的用上这一特性。
具体的使用方式参考官方文档: [For Claude Desktop Users](https://link.zhihu.com/?target=https%3A//modelcontextprotocol.io/quickstart/user)。这里不再赘述,配置成功后可以在 Claude 中测试: `Can you write a poem and save it to my desktop?` Claude 会请求你的权限后在本地新建一个文件。
并且官方也提供了非常多现成的 MCP Servers,你只需要选择你希望接入的工具,然后接入即可。
- [Awesome MCP Servers](https://link.zhihu.com/?target=https%3A//github.com/punkpeye/awesome-mcp-servers)
- [MCP Servers Website](https://link.zhihu.com/?target=https%3A//mcpservers.org/)
- [Official MCP Servers](https://link.zhihu.com/?target=https%3A//github.com/modelcontextprotocol/servers)
比如官方介绍的 `filesystem` 工具,它允许 Claude 读取和写入文件,就像在本地文件系统中一样。
## 4\. MCP Architecture 解构
这里首先引用官方给出的架构图。
![](https://pica.zhimg.com/v2-9d3681630ed930a8dc74d3b452c0cc94_1440w.jpg)
MCP 由三个核心组件构成:Host、Client 和 Server。让我们通过一个实际场景来理解这些组件如何协同工作:
假设你正在使用 Claude Desktop (Host) 询问:"我桌面上有哪些文档?"
1. **Host**Claude Desktop 作为 Host,负责接收你的提问并与 Claude 模型交互。
2. **Client**:当 Claude 模型决定需要访问你的文件系统时,Host 中内置的 MCP Client 会被激活。这个 Client 负责与适当的 MCP Server 建立连接。
3. **Server**:在这个例子中,文件系统 MCP Server 会被调用。它负责执行实际的文件扫描操作,访问你的桌面目录,并返回找到的文档列表。
整个流程是这样的:你的问题 → Claude Desktop(Host) → Claude 模型 → 需要文件信息 → MCP Client 连接 → 文件系统 MCP Server → 执行操作 → 返回结果 → Claude 生成回答 → 显示在 Claude Desktop 上。
这种架构设计使得 Claude 可以在不同场景下灵活调用各种工具和数据源,而开发者只需专注于开发对应的 MCP Server,无需关心 Host 和 Client 的实现细节。
![](https://pic3.zhimg.com/v2-3f7ceba80b16ef134b27119308a04472_1440w.jpg)
## 5\. 原理:模型是如何确定工具的选用的?
在学习的过程中,我一直好奇一个问题: **Claude(模型)是在什么时候确定使用哪些工具的呢**?好在 Anthropic 为我们提供了详细的 [解释](https://link.zhihu.com/?target=https%3A//modelcontextprotocol.io/quickstart/server%23what%25E2%2580%2599s-happening-under-the-hood)
当用户提出一个问题时:
1. 客户端(Claude Desktop / Cursor)将你的问题发送给 Claude。
2. Claude 分析可用的工具,并决定使用哪一个(或多个)。
3. 客户端通过 MCP Server 执行所选的工具。
4. 工具的执行结果被送回给 Claude。
5. Claude 结合执行结果构造最终的 prompt 并生成自然语言的回应。
6. 回应最终展示给用户!
> MCP Server 是由 Claude 主动选择并调用的。有意思的是 Claude 具体是如何确定该使用哪些工具呢?以及是否会使用一些不存在的工具呢(幻觉)?
**(原谅我之前解释的过于简单)** 为了探索这个问题让我们深入 [源码](https://link.zhihu.com/?target=https%3A//github.com/modelcontextprotocol/python-sdk/tree/main/examples/clients/simple-chatbot/mcp_simple_chatbot)。显然这个调用过程可以分为两个步骤:
1. 由 LLMClaude)确定使用哪些 MCP Server。
2. 执行对应的 MCP Server 并对执行结果进行重新处理。
先给出一个简单可视化帮助理解:
![](https://pic3.zhimg.com/v2-2bcd98f6541da0b6f14dc9082ee2dcda_1440w.jpg)
### 5.1 模型如何智能选择工具?
先理解第一步 **模型如何确定该使用哪些工具?** 这里以 MCP 官方提供的 [client example](https://link.zhihu.com/?target=https%3A//github.com/modelcontextprotocol/python-sdk/tree/main/examples/clients/simple-chatbot/mcp_simple_chatbot) 为讲解示例,并简化了对应的代码(删除了一些不影响阅读逻辑的异常控制代码)。通过阅读代码,可以发现模型是通过 prompt 来确定当前有哪些工具。我们通过 **将工具的具体使用描述以文本的形式传递给模型**,供模型了解有哪些工具以及结合实时情况进行选择。参考代码中的注释:
```python
... # 省略了无关的代码
async def start(self):
# 初始化所有的 mcp server
for server in self.servers:
await server.initialize()
# 获取所有的 tools 命名为 all_tools
all_tools = []
for server in self.servers:
tools = await server.list_tools()
all_tools.extend(tools)
# 将所有的 tools 的功能描述格式化成字符串供 LLM 使用
# tool.format_for_llm() 我放到了这段代码最后,方便阅读。
tools_description = "\n".join(
[tool.format_for_llm() for tool in all_tools]
)
# 这里就不简化了,以供参考,实际上就是基于 prompt 和当前所有工具的信息
# 询问 LLM(Claude)应该使用哪些工具。
system_message = (
"You are a helpful assistant with access to these tools:\n\n"
f"{tools_description}\n"
"Choose the appropriate tool based on the user's question. "
"If no tool is needed, reply directly.\n\n"
"IMPORTANT: When you need to use a tool, you must ONLY respond with "
"the exact JSON object format below, nothing else:\n"
"{\n"
' "tool": "tool-name",\n'
' "arguments": {\n'
' "argument-name": "value"\n'
" }\n"
"}\n\n"
"After receiving a tool's response:\n"
"1. Transform the raw data into a natural, conversational response\n"
"2. Keep responses concise but informative\n"
"3. Focus on the most relevant information\n"
"4. Use appropriate context from the user's question\n"
"5. Avoid simply repeating the raw data\n\n"
"Please use only the tools that are explicitly defined above."
)
messages = [{"role": "system", "content": system_message}]
while True:
# Final... 假设这里已经处理了用户消息输入。
messages.append({"role": "user", "content": user_input})
# 将 system_message 和用户消息输入一起发送给 LLM
llm_response = self.llm_client.get_response(messages)
... # 后面和确定使用哪些工具无关
class Tool:
"""Represents a tool with its properties and formatting."""
def __init__(
self, name: str, description: str, input_schema: dict[str, Any]
) -> None:
self.name: str = name
self.description: str = description
self.input_schema: dict[str, Any] = input_schema
# 把工具的名字 / 工具的用途(description)和工具所需要的参数(args_desc)转化为文本
def format_for_llm(self) -> str:
"""Format tool information for LLM.
Returns:
A formatted string describing the tool.
"""
args_desc = []
if "properties" in self.input_schema:
for param_name, param_info in self.input_schema["properties"].items():
arg_desc = (
f"- {param_name}: {param_info.get('description', 'No description')}"
)
if param_name in self.input_schema.get("required", []):
arg_desc += " (required)"
args_desc.append(arg_desc)
return f"""
Tool: {self.name}
Description: {self.description}
Arguments:
{chr(10).join(args_desc)}
"""
```
那 tool 的描述和代码中的 `input_schema` 是从哪里来的呢?通过进一步分析 MCP 的 Python SDK 源代码可以发现:大部分情况下,当使用装饰器 `@mcp.tool()` 来装饰函数时,对应的 `name``description` 等其实直接源自用户定义函数的函数名以及函数的 `docstring` 等。这里仅截取一小部分片段,想了解更多请参考 [原始代码](https://link.zhihu.com/?target=https%3A//github.com/modelcontextprotocol/python-sdk/blob/main/src/mcp/server/fastmcp/tools/base.py%23L34-L73)。
```python
@classmethod
def from_function(
cls,
fn: Callable,
name: str | None = None,
description: str | None = None,
context_kwarg: str | None = None,
) -> "Tool":
"""Create a Tool from a function."""
func_name = name or fn.__name__ # 获取函数名
if func_name == "<lambda>":
raise ValueError("You must provide a name for lambda functions")
func_doc = description or fn.__doc__ or "" # 获取函数 docstring
is_async = inspect.iscoroutinefunction(fn)
... # 更多请参考原始代码...
```
总结: **模型是通过 prompt engineering,即提供所有工具的结构化描述和 few-shot 的 example 来确定该使用哪些工具**。另一方面,Anthropic 肯定对 Claude 做了专门的训练(毕竟是自家协议,Claude 更能理解工具的 prompt 以及输出结构化的 tool call json 代码)
### 5.2 工具执行与结果反馈机制
其实工具的执行就比较简单和直接了。承接上一步,我们把 system prompt(指令与工具调用描述)和用户消息一起发送给模型,然后接收模型的回复。当模型分析用户请求后,它会决定是否需要调用工具:
- **无需工具时**:模型直接生成自然语言回复。
- **需要工具时**:模型输出结构化 JSON 格式的工具调用请求。
如果回复中包含结构化 JSON 格式的工具调用请求,则客户端会根据这个 json 代码执行对应的工具。具体的实现逻辑都在 `process_llm_response` 中, [代码](https://link.zhihu.com/?target=https%3A//github.com/modelcontextprotocol/python-sdk/blob/main/examples/clients/simple-chatbot/mcp_simple_chatbot/main.py%23L295-L338),逻辑非常简单。
如果模型执行了 tool call,则工具执行的结果 `result` 会和 system prompt 和用户消息一起 **重新发送** 给模型,请求模型生成最终回复。
如果 tool call 的 json 代码存在问题或者模型产生了幻觉怎么办呢?通过阅读 [代码](https://link.zhihu.com/?target=https%3A//github.com/modelcontextprotocol/python-sdk/blob/main/examples/clients/simple-chatbot/mcp_simple_chatbot/main.py%23L295-L338) 发现,我们会 skip 掉无效的调用请求。
执行相关的代码与注释如下:
```python
... # 省略无关的代码
async def start(self):
... # 上面已经介绍过了,模型如何选择工具
while True:
# 假设这里已经处理了用户消息输入。
messages.append({"role": "user", "content": user_input})
# 获取 LLM 的输出
llm_response = self.llm_client.get_response(messages)
# 处理 LLM 的输出(如果有 tool call 则执行对应的工具)
result = await self.process_llm_response(llm_response)
# 如果 result 与 llm_response 不同,说明执行了 tool call(有额外信息了)
# 则将 tool call 的结果重新发送给 LLM 进行处理。
if result != llm_response:
messages.append({"role": "assistant", "content": llm_response})
messages.append({"role": "system", "content": result})
final_response = self.llm_client.get_response(messages)
logging.info("\nFinal response: %s", final_response)
messages.append(
{"role": "assistant", "content": final_response}
)
# 否则代表没有执行 tool call,则直接将 LLM 的输出返回给用户。
else:
messages.append({"role": "assistant", "content": llm_response})
```
结合这部分原理分析:
- 工具文档至关重要 \- 模型通过工具描述文本来理解和选择工具,因此精心编写工具的名称、docstring 和参数说明至关重要。
- 由于 MCP 的选择是基于 prompt 的,所以任何模型其实都适配 MCP,只要你能提供对应的工具描述。但是当你使用非 Claude 模型时,MCP 使用的效果和体验难以保证(没有做专门的训练)。
## 6\. 总结
MCP (Model Context Protocol) 代表了 AI 与外部工具和数据交互的标准建立。通过本文,我们可以了解到:
1. **MCP 的本质**:它是一个统一的协议标准,使 AI 模型能够以一致的方式连接各种数据源和工具,类似于 AI 世界的"USB-C"接口。
2. **MCP 的价值**:它解决了传统 function call 的平台依赖问题,提供了更统一、开放、安全、灵活的工具调用机制,让用户和开发者都能从中受益。
3. **使用与开发**:对于普通用户,MCP 提供了丰富的现成工具, **用户可以在不了解任何技术细节的情况下使用**;对于开发者,MCP 提供了清晰的架构和 SDK,使工具开发变得相对简单。
MCP 还处于发展初期,但其潜力巨大。更重要的是生态吧,基于统一标准下构筑的生态也会正向的促进整个领域的发展。
以上内容已经覆盖了 MCP 的基本概念、价值和使用方法。对于技术实现感兴趣的读者,以下 **附录提供了一个简单的 MCP Server 开发实践**,帮助你更深入地理解 MCP 的工作原理。
## Appendix AMCP Server 开发实践
`READ⏰: 30min`
在了解 MCP 组件之后,很容易发现对绝大部分 AI 开发者来说,我们只需要关心 Server 的实现。因此,我这里准备通过一个最简单的示例来介绍如何实现一个 MCP Server。
MCP servers 可以提供三种主要类型的功能:
- Resources(资源):类似文件的数据,可以被客户端读取(如 API 响应或文件内容)
- Tools(工具):可以被 LLM 调用的函数(需要用户批准)
- Prompts(提示):预先编写的模板,帮助用户完成特定任务
本教程将主要关注工具(Tools)。
### A.I 使用 LLM 构建 MCP 的最佳实践
在开始之前,Anthropic 为我们提供了一个基于 LLM 的 MCP Server 的 [最佳开发实践](https://link.zhihu.com/?target=https%3A//modelcontextprotocol.io/tutorials/building-mcp-with-llms),总结如下:
- 引入 domain knowledge(说人话就是,告诉他一些 MCP Server 开发的范例和资料)
- 访问 [https://modelcontextprotocol.io/llms-full.txt](https://link.zhihu.com/?target=https%3A//modelcontextprotocol.io/llms-full.txt) 并复制完整的文档文本。(实测这个太长了,可以忽略)
- 导航到 MCP [TypeScript SDK](https://link.zhihu.com/?target=https%3A//github.com/modelcontextprotocol/typescript-sdk) 或 [Python SDK](https://link.zhihu.com/?target=https%3A//github.com/modelcontextprotocol/python-sdk) Github 项目中并复制相关内容。
- 把这些作为 prompt 输入到你的 chat 对话中(作为 context)。
- 描述你的需求
- 你的服务器会开放哪些资源
- 它会提供哪些工具
- 它应该给出哪些引导或建议
- 它需要跟哪些外部系统互动
给出一个 example prompt:
```text
... (这里是已经引入的 domain knowledge
打造一个 MCP 服务器,它能够:
- 连接到我公司的 PostgreSQL 数据库
- 将表格结构作为资源开放出来
- 提供运行只读 SQL 查询的工具
- 包含常见数据分析任务的引导
```
剩下的部分也很重要,但是偏重于方法论,实践性较弱,我这里就不展开了,推荐大家直接看 [官方文档](https://link.zhihu.com/?target=https%3A//modelcontextprotocol.io/tutorials/building-mcp-with-llms)。
### A.II 手动实践
本节内容主要参考了官方文档: [Quick Start: For Server Developers](https://link.zhihu.com/?target=https%3A//modelcontextprotocol.io/quickstart/server)。你可以选择直接跳过这部分内容或者进行一个速读。
这里我准备了一个简单的示例,使用 Python 实现一个 MCP Server,用来 **统计当前桌面上的 txt 文件数量和获取对应文件的名字**(你可以理解为一点用都没有,但是它足够简单,主要是为了难以配置环境的读者提供一个足够短的实践记录)。以下实践均运行在我的 MacOS 系统上。
**Step1. 前置工作**
- 安装 Claude Desktop。
- Python 3.10+ 环境
- [Python MCP SDK](https://zhida.zhihu.com/search?content_id=254822599&content_type=Article&match_order=1&q=Python+MCP+SDK&zd_token=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJ6aGlkYV9zZXJ2ZXIiLCJleHAiOjE3NDM4MzQwMDIsInEiOiJQeXRob24gTUNQIFNESyIsInpoaWRhX3NvdXJjZSI6ImVudGl0eSIsImNvbnRlbnRfaWQiOjI1NDgyMjU5OSwiY29udGVudF90eXBlIjoiQXJ0aWNsZSIsIm1hdGNoX29yZGVyIjoxLCJ6ZF90b2tlbiI6bnVsbH0.1c42YmabWtcjJAfTjF4cGX2Bsp0Qbkl6Pjc7V22BSJ0&zhida_source=entity) 1.2.0+
**Step2. 环境配置**
由于我使用的是官方推荐的配置:
```text
# 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh
# 创建项目目录
uv init txt_counter
cd txt_counter
# 设置 Python 3.10+ 环境
echo "3.11" > .python-version
# 创建虚拟环境并激活
uv venv
source .venv/bin/activate
# Install dependencies
uv add "mcp[cli]" httpx
# Create our server file
touch txt_counter.py
```
> **Question**: 什么是 `uv` 呢和 `conda` 比有什么区别?
>
> **Answer**: 一个用 Rust 编写的超快速 (100x) Python 包管理器和环境管理工具,由 Astral 开发。定位为 pip 和 venv 的替代品,专注于速度、简单性和现代 Python 工作流。
**Step3. 构造一个 prompt**
```text
"""
... (这里是已经引入的 domain knowledge
"""
打造一个 MCP 服务器,它能够:
- 功能:
- 统计当前桌面上的 txt 文件数量
- 获取对应文件的名字
要求:
- 不需要给出 prompt 和 resource 相关代码。
- 你可以假设我的桌面路径为 /Users/{username}/Desktop
```
- Domain Knowledge 复制于 MCP Python SDK 的 [README 文件](https://link.zhihu.com/?target=https%3A//raw.githubusercontent.com/modelcontextprotocol/python-sdk/refs/heads/main/README.md)
**Step4. 实现 MCP Server**
以下代码由 Claude 3.7 直接生成。当然,这主要是因为我的需求足够简单,当你需要实现一个复杂的 MCP Server 时,你可能需要多步的引导和 Debug 才能得到最终的代码。
```python
import os
from pathlib import Path
from mcp.server.fastmcp import FastMCP
# 创建 MCP Server
mcp = FastMCP("桌面 TXT 文件统计器")
@mcp.tool()
def count_desktop_txt_files() -> int:
"""Count the number of .txt files on the desktop."""
# Get the desktop path
username = os.getenv("USER") or os.getenv("USERNAME")
desktop_path = Path(f"/Users/{username}/Desktop")
# Count .txt files
txt_files = list(desktop_path.glob("*.txt"))
return len(txt_files)
@mcp.tool()
def list_desktop_txt_files() -> str:
"""Get a list of all .txt filenames on the desktop."""
# Get the desktop path
username = os.getenv("USER") or os.getenv("USERNAME")
desktop_path = Path(f"/Users/{username}/Desktop")
# Get all .txt files
txt_files = list(desktop_path.glob("*.txt"))
# Return the filenames
if not txt_files:
return "No .txt files found on desktop."
# Format the list of filenames
file_list = "\n".join([f"- {file.name}" for file in txt_files])
return f"Found {len(txt_files)} .txt files on desktop:\n{file_list}"
if __name__ == "__main__":
# Initialize and run the server
mcp.run()
```
任务非常简单,只需要调用非常基本的 `os` 就可以完成。
**Step5. 测试 MCP Server**
(官方没有这一步,但是我非常推荐大家这么做)
```text
$ mcp dev txt_counter.py
Starting MCP inspector...
Proxy server listening on port 3000
MCP Inspector is up and running at http://localhost:5173
```
之后进入到给出的链接中,你大概能按下图进行操作:
![](https://pica.zhimg.com/v2-a5e671c689907229a1d86162597e2da4_1440w.jpg)
如果成功,你应该能像我一样看到对应的输出( `Tool Result`)~
**Step6. 接入 Claude**
最后一步就是把我们写好的 MCP 接入到 Claude Desktop 中。流程如下:
```text
# 打开 claude_desktop_config.json (MacOS / Linux)
# 如果你用的是 cursor 或者 vim 请更换对应的命令
code ~/Library/Application\ Support/Claude/claude_desktop_config.json
```
在配置文件中添加以下内容,记得替换 `/Users/{username}` 为你的实际用户名,以及其他路径为你的实际路径。
```json
{
"mcpServers": {
"txt_counter": {
"command": "/Users/{username}/.local/bin/uv",
"args": [\
"--directory",\
"/Users/{username}/work/mcp-learn/code-example-txt", // 你的项目路径(这里是我的)\
"run",\
"txt_counter.py" // 你的 MCP Server 文件名\
]
}
}
}
```
- `uv` 最好是绝对路径,推荐使用 `which uv` 获取。
配置好后重启 Claude Desktop,如果没问题就能看到对应的 MCP Server 了。
![](https://pic3.zhimg.com/v2-cb51fd06ef7663f05a5dd3da1aedeba2_1440w.jpg)
**Step7. 实际使用**
接下来,我们通过一个简单的 prompt 进行实际测试:
```text
能推测我当前桌面上 txt 文件名的含义吗?
```
它可能会请求你的使用权限,如图一所示,你可以点击 `Allow for This Chat`
![](https://pic2.zhimg.com/v2-44e6397dc33c38875198e62d6fcd4317_1440w.jpg)
![](https://pic1.zhimg.com/v2-d99e12160a8ae3af75df8ddf7eddda24_1440w.jpg)
看起来我们 MCP Server 已经正常工作了!
### A.III MCP Server Debug
Debug 是一个非常复杂的话题,这里直接推荐官方的教程:
- [Official Tutorial: Debugging](https://link.zhihu.com/?target=https%3A//modelcontextprotocol.io/docs/tools/debugging)
- [Official Tutorial: Inspector](https://link.zhihu.com/?target=https%3A//modelcontextprotocol.io/docs/tools/inspector)
## Reference
- [MCP Official Docs](https://link.zhihu.com/?target=https%3A//modelcontextprotocol.io/)
- [MCP Python SDK](https://link.zhihu.com/?target=https%3A//github.com/modelcontextprotocol/python-sdk)
- [MCP Available Server](https://link.zhihu.com/?target=https%3A//github.com/modelcontextprotocol/servers)
- [Blog: What is Model Context Protocol? (MCP) Architecture Overview](https://link.zhihu.com/?target=https%3A//medium.com/%40tahirbalarabe2/what-is-model-context-protocol-mcp-architecture-overview-c75f20ba4498)
- [Blog: LLM Function-Calling vs. Model Context Protocol (MCP)](https://link.zhihu.com/?target=https%3A//www.gentoro.com/blog/function-calling-vs-model-context-protocol-mcp)
> 来源:知乎
@@ -0,0 +1,213 @@
# 刚刚,GPT-4o 原生图像生成上线,P 图、生图也就一嘴的事
就在 DeepSeek V3「小版本更新」,阿里通义千问团队开源了新模型后,OpenAI 深夜也悄悄搞事情。
毫无预告地,OpenAI 推出 GPT-4o 原生图像生成。效果让人惊叹不已。更妙的是,即使免费用户也可使用。
![](https://n.sinaimg.cn/spider20250326/96/w614h1082/20250326/1748-f3466c1626617cb8a7e19e6b6091f735.png)
先来体验一下:
![](https://n.sinaimg.cn/spider20250326/167/w993h774/20250326/8165-6883a72855bff46bf21cbcc7659d1804.png)
在生成结果中可以看到,GPT-4o 在执行任务时首先会对我们的原始提示词进行优化,编写一个更加详细的英文版提示词:
![](https://n.sinaimg.cn/spider20250326/246/w521h525/20250326/66c0-f981583b96772f4cce9e648b0c56d91e.png)
在 OpenAI 看来,图像生成应该是语言模型的核心能力之一。因此他们将最先进的图像生成器 4o 集成到了 GPT-4o 中。
2024 年 5 月,OpenAI 发布其首个全能多模态模型 GPT-4o,与 ChatGPT 之前采用的生成式 AI 图像模型(OpenAI 的 DALL-E 3)不同 —— 这个经典的 diffusion transformer 通过去除像素噪声来根据文本提示重建图像 —— 新的图像生成器被整合到了同一个多模态模型中。OpenAI 对整个模型进行了统一训练,使其能够同时理解文本、代码和图像等多种形式。
GPT-4o 的图像生成能力具有以下突出优势:它能精准呈现文字内容,严格遵循指令要求,并充分调用 4o 内置知识库和对话上下文 —— 包括对上传图像进行转化处理或将其作为视觉灵感来源。这些特性让用户能更轻松地创造出与构想完全一致的图像,通过视觉表达实现更高效的沟通,从而将图像生成技术升级为兼具精确性与实用性的强大工具。
效果如何,我们接着往下看。
有用且美丽的图像生成
OpenAI 基于在线图像和文本对模型进行了训练,这不仅让模型学习了图像与语言之间的关系,还学习了图像之间的相互关系。结合后训练,最终的模型具有令人惊讶的视觉流畅性,能够生成有用、一致且具有上下文感知能力的图像。
文本渲染
一图胜千言,但有时在恰当位置生成几个字就能升华图像意境。4o 将精准符号与视觉元素完美融合的能力,使图像生成进阶为真正的视觉传达工具。
提示:「创建一张逼真的照片,内容是两名 20 多岁的女巫(一名是灰白色挑染发型,另一名是长卷的红褐色头发)正在阅读一个街标。
背景:纽约威廉斯堡一条普通的城市街道,一根电线杆上完全被许多详细的街标覆盖(例如,街道清扫时间、需要停车许可证、车辆分类、拖车规则),包括中间的几个荒谬的标志:Broom Parking for Witches Not Permitted in Zone CMagic Carpet Loading and Unloading Only (15-Minute Limit) 等等。
人物:一名女巫拿着一把扫帚,另一名女巫拿着一个卷起的魔法地毯。她们在前景中,身体微微背向相机,头部微微倾斜,仔细查看标志。
从背景到前景的构图:街道 \+ 停放的汽车 \+ 建筑物 → 街标 → 女巫。人物必须是离拍摄相机最近的。」
这就是生成一张图片的部分提示词,提示词描述的可谓非常详细。GPT-4o 不但严格遵循指令,还将提示语中的文本字符也准确的表达出来了。
![](https://n.sinaimg.cn/spider20250326/470/w828h1242/20250326/3d77-4737101867db5227c04229f0a77d903a.png)
GPT-4o 生成的菜单,不知道的还以为这是一张真实菜单。
提示:「我在 Marin 开设了一家名为 Haein 的传统概念餐厅,主打采用有机农场新鲜食材烹制的韩式料理,并根据时令供应轮换菜单。请您设计一份菜单图片,需包含以下菜品 —— 整体风格要兼顾传统 / 乡村韵味与高端精致感。请为每道菜品配上优雅的彼得兔风格的插画,确保所有文字正确呈现,并使用白色背景。
顶部:大酱汤(发酵大豆炖菜) \- 18 美元
大酱汤是用当地的蘑菇、豆腐和时令蔬菜做成的,配上米饭……
底部:时令米酒 —— 每杯 12 美元」
![](https://n.sinaimg.cn/spider20250326/470/w828h1242/20250326/b6ba-35cde8f8838e76fb6d1a69ab303a1a82.png)
持续生成
由于图像生成功能现已深度集成于 GPT-4o 系统,用户可通过自然对话实现图像优化。GPT-4o 能基于聊天上下文中的图文内容持续创作,确保输出结果的一致性。例如在设计游戏角色时,当你反复调整和测试方案,该角色的外观特征将在多次迭代中保持高度协调。
举例来说,当你输入一张猫咪的图片,然后给出提示「给这只猫一顶侦探帽和一副单片眼镜」,GPT-4o 就能在保持原始图片的情况下,遵循指令重新生成一张。
你还可以继续修改图片,只要给点提示就可以了,例如给定提示「将这个场景制作成一款 AAA 级的 4K 游戏引擎打造的视频游戏,并添加一个神秘角色扮演游戏的用户界面作为覆盖层。在游戏中,我们可以在顶部看到生命值条和小地图,底部则显示法术图标,整体界面风格保持一致且具有标志性。」对话过程一张精美的图片就生成了。
![](https://n.sinaimg.cn/spider20250326/501/w1080h4221/20250326/6fad-cc89142c46ebdaf9820a8d714fb6eff4.png)
除了图像作为输入,你也可以从提示入手,例如要求 GPT-4o 生成一张「奢华蛋壳纹理卡片上的诗歌」,然后把诗歌内容也附加上,就能出现如下的效果图,你也可以进一步修改,输入提示就可以了。
![](https://n.sinaimg.cn/spider20250326/741/w1080h2861/20250326/00c8-a51c7ec2a595da3ef55579548e08085f.png)
指令遵循
GPT-4o 的图像生成能够细致入微地遵循详细的提示,注重细节。其他系统在处理大约 5 到 8 个对象时可能会遇到困难,而 GPT-4o 能够处理多达 10 到 20 个不同的对象。对象与其特征和关系的更紧密绑定,使得控制更加精准。
提示:「一张正方形图片,包含一个 4 行 4 列的网格,共有 16 个物体,背景为白色。从左到右、从上到下依次排列如下:
一颗蓝色的星星
一个红色的三角形
一个绿色的正方形
一个粉色的圆形
一个橙色的沙漏
一个紫色的无穷大符号
一个黑白波点图案的领结
一个扎染风格的 42 字样
……
用草书写成的 OpenAI 字样
一道彩虹色的闪电」
![](https://n.sinaimg.cn/spider20250326/64/w828h836/20250326/00e5-a4e22072dd567770d534525ee567c2ad.png)
空旷的城市,提示:下午的纽约时代广场,没有人,没有车辆,也没有发光的广告牌。
![](https://n.sinaimg.cn/spider20250326/611/w1068h1943/20250326/9afb-f9cbfa6b97cada4b96329a5c46f91ece.png)
转化数学公式:
![](https://n.sinaimg.cn/spider20250326/401/w1080h921/20250326/b458-3b2424c242f3d57411aff3b523185e79.png)
上下文学习
GPT-4o 能够分析并学习用户上传的图像,将图像的细节无缝整合到上下文中,以指导图像生成。
当你输入几张图像,然后给出提示:用这些图像作为参考,画一个三角形车轮的车辆设计。
标出前轮,后轮,并在图的下方给出文字(用小大写)
「TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI」
![](https://n.sinaimg.cn/spider20250326/740/w1080h2060/20250326/ad38-ab82de700f9718a796d300275f53877d.png)
提示:蓝色电锯逼真图像。
然后再给出提示:为这个电锯做个广告,一个奶奶在感恩节餐桌上切火鸡。并添加标签行。
![](https://n.sinaimg.cn/spider20250326/750/w1080h1270/20250326/11d8-3fc30df1f984c9e0eb458fa14a2e92c0.png)
世界知识
原生图像生成使 4o 能够将文本和图像之间的知识联系起来,从而形成一个感觉更智能、更高效的模型。
![](https://n.sinaimg.cn/spider20250326/57/w1080h4577/20250326/7ee4-d4051ef638e46a779f5e87ff7e74e45b.png)
提示:制作一个视觉信息图表,描述为什么旧金山如此多雾。
简单的一句提示,4o 就把影响环境质量的原因用图片的形式描述出来了。看来,4o 掌握的知识还是很丰富的。
![](https://n.sinaimg.cn/spider20250326/529/w1062h1067/20250326/b216-6776af1a964102f78d9f1f569062729b.png)
要求 4o 制作一幅关于如何制作抹茶的彩色图解,也没有问题。
![](https://n.sinaimg.cn/spider20250326/534/w1052h1082/20250326/7c3a-235f6facff8c372c2f40dd87a3e6ee94.png)
风格
在反映丰富多样图像风格的图像上进行训练,使模型能够令人信服地创建或转换图像。
提示:一只猫望着街上的水坑,但它的倒影是一只老虎,而且两种倒影都被水中的涟漪真实地扭曲了。
![](https://n.sinaimg.cn/spider20250326/160/w1024h1536/20250326/1366-a5a272c45316b423b638391e3dd5be89.png)
提示:创建一张超逼真的照片,内容是这四只动物在公园的野餐毯上玩扑克,画面拉远,呈现全景,照片风格逼真。一只长毛虎斑猫正拿着一手牌……
![](https://n.sinaimg.cn/spider20250326/160/w1024h1536/20250326/02a2-d296025c71e6f23fda60115b7282203d.png)
局限性
OpenAI 没有避讳自身模型的局限性。他们指出:「我们的模型并不完美。我们目前已经看到了其存在多种限制,我们将在首次发布后通过模型改进来解决这些限制。」具体来说,OpenAI 罗列出的限制包括:
- 裁剪:GPT-4o 有时会错误地裁剪较长的图像(如海报),尤其是靠近底部的部分。
- 幻觉:与其他文本模型一样,图像生成模型也可以编造信息,尤其是在上下文提示较少时。
- 高结合问题:当生成图像需要依赖于其知识库时,它可能难以同时准确地呈现 10-20 多个不同的概念,例如完整的元素周期表。
- 精确绘图:模型可能在绘制涉及数据的图表时不准确。
- 多语言文本渲染:模型有时难以渲染非拉丁语言,并且字符可能不准确或产生幻觉,尤其是在更复杂的情况下。
- 编辑精度:当要求编辑图像生成的特定部分(例如拼写错误)时,结果并不总是有效,还可能出现在没有请求的情况下更改图像的其他部分或引入更多错误的情况。另一个错误是模型难以保持用户上传的人脸在编辑中的一致性,但 OpenAI 预计将在一周内修复该错误。
- 小文本信息密集:众所周知,当被要求以非常小的尺寸呈现详细信息时,模型会遇到困难。
![模型难以呈现完整的元素周期表](https://n.sinaimg.cn/spider20250326/160/w1024h1536/20250326/6155-5a6c112c1853691aba55d204261beb55.png)
安全性
OpenAI 也强调了自己在模型安全方面所做的工作。
按照 OpenAI 之前发布的 Model Spec(模型规范),他们的目标是「通过支持游戏开发、历史探索和教育等有价值的用例来最大限度地提高创作自由 —— 同时保持严格的安全标准。与此同时,阻止违反这些标准的请求仍然和以往一样重要。」以下是对其它风险领域的评估:
通过 C2PA 和内部可逆搜索给出出处
所有生成的图像都将自带 C2PA 元数据,即会被标记成来自 GPT‑4o 的图像。OpenAI 表示,这样做是为了提供透明性。并且他们宣布已经构建了一个内部搜索工具,可利用生成结果的技术属性来帮助验证某个内容是否出自他们的模型。
阻止不良内容
OpenAI 表示将继续阻止可能违反其内容政策的生成图像请求。他们表示,当真人图像处于上下文中时,会加强对可以创建的图像类型的限制。
「与任何发布一样,安全性永不止步,而是一个持续的投资领域。随着我们更多地了解该模型在现实世界中的使用情况,我们将相应地调整我们的政策。」
使用推理来增强安全性
与审议性对齐(deliberative alignment⁠)类似,OpenAI 表示已经训练了一个可以直接根据人工编写的可解释安全规范工作的推理 LLM。
「我们在开发过程中使用了这个推理 LLM 来帮助我们识别和解决我们政策中的歧义。结合我们为 ChatGPT 和 Sora 开发的多模态技术进步和现有的安全技术,这能让我们根据我们的政策来调节输入文本和输出图像。」
有关安全性的更多论述和研究结果请访问 OpenAI 同步发布的 GPT-4o 系统卡附录。
![](https://n.sinaimg.cn/spider20250326/218/w815h203/20250326/e598-71ae596b98ca1ed3e65b58fcf2d5a6b5.png)
附录地址:https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native\_Image\_Generation\_System\_Card.pdf
哪些用户可以使用?
OpenAI 表示,从今天开始,4o 图像生成能力将向 Plus、Pro、Team 和免费用户推出,作为 ChatGPT 中的默认图像生成器,企业版和教育版用户还需等待一段时间。它也可以在 Sora 中使用。对于那些 DALL・E 在其心中占有特殊地位的人来说,仍然可以通过一个专门的 DALL・E GPT 访问它。
API 用户呢?OpenAI 表示也快了:访问权限将在未来几周内推出。
最后,OpenAI 表示:「使用 GPT-4o,创建和定制图像就像天一样简单 —— 只需描述你需要什么,包括任何细节,如宽高比、使用十六进制代码的精确颜色或透明背景。」不过,OpenAI 也指出,由于此模型能生成更详细的图像,因此图像渲染时间更长,通常长达一分钟。
参考链接:https://openai.com/index/introducing-4o-image-generation/
> 海量资讯、精准解读,尽在新浪财经 APP
@@ -0,0 +1,338 @@
# 实测 Manus:首个真干活 AI,中国造(附 50 个用例 + 拆解)
本以为 DeepSeek 已是天下无敌,没想到有人比他还猛...
这个产品是 Manus,全球首款通用型 Agent,中国制造,昨夜上线,今早发布。
地址是:https//manus.im/
目前还在内测,可在登录后,申请加入内测
这东西,在 GAIA 基准测试中远远甩开了 OpenAI。
![](https://n.sinaimg.cn/finance/crawl/69/w550h319/20250306/d400-545dec6702cd360938e4119a4637f1a9.png)
Peak,作为 Manus 的首席科学家,放送了原声。
Manus 的产品名,意思为“手”,来自拉丁文“mens et manus” —— 知行合一。它体现了一种理念:知识和智慧必须通过身体力行才能对世界产生正向影响。这就是 Manus 的追求,为 LLM 做一双能巧妙调用工具的手,从而扩展人的能力,让你心中的愿景成为现实。
之前知道他们在“整个大活”,一直充满期待。
没想到,直接整了个刷爆全网的:真叫一个一码难求
![](https://n.sinaimg.cn/finance/crawl/256/w489h567/20250306/2b91-cd6c58f71af506f528e9f56b9dba7dbb.png)
我先放几个例子,这些来自于官方
提示词:
我是一名中学物理老师,正准备教授动量守恒定律。您能否创建一系列清晰准确的演示动画,并将它们整理成一个简单的 HTML 演示文稿?
https://manus.im/share/pAdLIvlktJmV945593mFio
提示词:
我想要一份特斯拉股票的全面分析,包括:概述:公司概况、关键指标、业绩数据和投资建议财务数据:收入趋势、利润率、资产负债表和现金流分析市场情绪:分析师评级、情绪指标和新闻影响技术分析:价格趋势、技术指标和支撑/阻力水平资产比较:市场份额和与主要竞争对手的财务指标对比价值投资者:内在价值、增长潜力和风险因素投资论点:SWOT 分析和针对不同类型投资者的建议
https://manus.im/share/xFgpHb15vKqfRPWIs3JJPJ?replay=1
提示词:
我需要一个 4 月 15-23 日从西雅图出发的 7 天日本行程,预算为我和未婚妻两人 2500-5000 美元。我们喜欢历史遗迹、隐藏的宝地和日本文化(剑道、茶道、禅修)。我们想看奈良的鹿并徒步探索城市。我计划在这次旅行中求婚,需要一个特别场所的建议。请提供详细的行程安排和一个简单的 HTML 旅行手册,包含地图、景点描述、必备的日语短语和我们整个旅程中可以参考的旅行小贴士。
https://manus.im/share/brWKUSp51ItvVMBpcXNCZ1?replay=1
Manues 的创始团队,是很久的朋友了,各个顶呱呱。
上线前给留了个码,让我能来测测这一产品。
顺道着,摸了点独家消息。
![](https://n.sinaimg.cn/finance/crawl/307/w550h557/20250306/8585-2bd3ed79485966c5eb85d78815ccca6d.png)
我先随便跑了个...非常离谱的任务:
帮我整理一份逐月编年史,纪录从 2022 年到现在,AI 行业每个月都发生了哪些事情。整理完之后,再从现在的视角回顾下这段历史
然后...迎来了我的一声声“卧槽“,首先..他清晰的去规划任务
![](https://n.sinaimg.cn/finance/crawl/272/w550h522/20250306/44e4-31ba2edc194a4d0a40701c5747de3914.png)
然后,开着浏览器导出去吧啦信息...
![](https://n.sinaimg.cn/finance/crawl/156/w550h406/20250306/370a-3da2edd88ad4365c937266a3060d78a0.png)
还会不断的回顾矫正。。。
![](https://n.sinaimg.cn/finance/crawl/156/w550h406/20250306/370a-3da2edd88ad4365c937266a3060d78a0.png)
没错,是我想要的 Agent 了!
(不过这个 case 实在太大了,跑了几个小时还没跑完)
同时的,我去跑了另一个 Case:写个游戏
帮我写一个 DOOM 的网页版游戏,高保真,我可以用鼠标和键盘来玩
这里补充说一下:《Doom》(《毁灭战士》)是由 id Software 开发并于 1993 年 发行的里程碑式第一人称射击游戏(FPS)。它不仅是电子游戏历史上的经典之作,更被认为是现代 FPS 类型的奠基者之一。
在我把需求给到 Manus 之后,就看着他一阵捣鼓。
![](https://n.sinaimg.cn/finance/crawl/420/w550h670/20250306/1a61-41f75522e0b61a04c11d17bbc387da24.png)
而最终呢,不但完成了任务,甚至帮我部署好了
https://etuswgwm.manus.space/
顺道还给我留了个手册
![](https://n.sinaimg.cn/finance/crawl/513/w550h763/20250306/59e3-73d153f11f4630bc91be9c26fad33f5b.png)
当然了,这里还有茫茫多的 case,来自官方
Manus 通过资料研究、数据分析捕捉了过去四个季度市场对 Amazon 的情绪变化。
![](https://n.sinaimg.cn/finance/crawl/171/w550h421/20250306/04ed-221b4e48fd8005cdf6e9e7fdfbc10c22.png)
Manus 全网深入调研找到最符合需求的货源
![](https://n.sinaimg.cn/finance/crawl/129/w550h379/20250306/4a84-e5f5808a8c03681b40d83fa172f12119.png)
让 Manus 根据你的个人主页或简历制作一个有设计感的名片。
![](https://n.sinaimg.cn/finance/crawl/187/w550h437/20250306/744d-77a93de4c7f7c361cc1149ea84d84264.png)
Manus 将深入理解和分析你的家庭情况和需求,并去专业的房产销售网站为你筛选最符合需求的标的。
![](https://n.sinaimg.cn/finance/crawl/231/w550h481/20250306/e569-cf7ea9b640de10623ec6bd50a2625b0b.png)
来看看 Manus 是高效合理的安排 40 位候选人的时间
![](https://n.sinaimg.cn/finance/crawl/152/w550h402/20250306/7048-571bd9c7df21d0604858efd8fa87ae69.png)
上传你的课堂录音,让 manus 为你做一个图文并茂的课堂笔记
![](https://n.sinaimg.cn/finance/crawl/246/w550h496/20250306/a5b8-cd0edcc4f58bc683263427ea8855c266.png)
Manus 为你全面个性化整理高质量的强化学习学习资源。
![](https://n.sinaimg.cn/finance/crawl/211/w550h461/20250306/0cf9-cc5d9c776f136eda00da0898889c14af.png)
Manus 可以为你从各个渠道收集你关心的某个事件关键人物的公开观点
![](https://n.sinaimg.cn/finance/crawl/152/w550h402/20250306/7d73-dfb93587d12fcadf5c23e11cfe9b833f.png)
买保险的时候要对比太多 Policy 条款?交给 Manus 为你制作清晰的关键信息对比表,给出你最佳决策建议
![](https://n.sinaimg.cn/finance/crawl/167/w550h417/20250306/5bb8-6b340552a837d092eb1fb59bdf84d51b.png)
枯燥但需要打起十二分精神来完成的繁琐的合同审查工作,也是 Manus 非常擅长的。Manus 将会根据你的合同先去研究和学习相关的法律法规,再有理有据的告诉你的合同目前存在的纰漏。
![](https://n.sinaimg.cn/finance/crawl/159/w550h409/20250306/46ea-3106edacfcbe6eda44171f7138e49810.png)
把你的 API excel 文档交给 Manus,让他为你转换成一个详尽的 doc 版本的 API 文档。
![](https://n.sinaimg.cn/finance/crawl/181/w550h431/20250306/d4f9-b4de45eadc15f4265d7fcd9fac988fc5.png)
Manus 深入文献研究 Pitera 这种化妆品成分,并撰写了 Youtube 视频讲解脚本。
![](https://n.sinaimg.cn/finance/crawl/163/w550h413/20250306/c75b-bc72796955f7b78640029fb81f1a57d8.png)
Manus 通过公开信息的深入搜集和分析,绘制一份公司组织关系图。
![](https://n.sinaimg.cn/finance/crawl/273/w550h523/20250306/b6a1-b6e71f1cca3b56ec707d4cbd25bcd499.png)
我们让 Manus 看 Techcrunch 的官网设计风格,并根据这个风格设计了一套 Slide 可用的 icon 图表库
![](https://n.sinaimg.cn/finance/crawl/184/w550h434/20250306/6dee-3ae5b610e648248f7412e89478ff79dc.png)
Manus 根据你的喜好为你定制一段任意长度的冥想引导音频
![](https://n.sinaimg.cn/finance/crawl/181/w550h431/20250306/1913-21344bb194032e78882b95addf1c19ea.png)
Manus 深入进行股票分析,并制作惊艳的 Dashboard 为你展示股票的详细信息
![](https://n.sinaimg.cn/finance/crawl/184/w550h434/20250306/7c94-445ec0761e1a0fdc96c49879bb9f4076.png)
Manus 可以为你定制化你想要的各种奇怪的音效,来听听 Manus 为我们做的鸟鸣混合蒸汽的音效
![](https://n.sinaimg.cn/finance/crawl/141/w550h391/20250306/5c7a-e75141a1fa9f4147cb139802c7f54790.png)
Manus 可以深入分析地区 POI 数据,交叉验证官方统计数据,深入分析某地病患人口统计
![](https://n.sinaimg.cn/finance/crawl/346/w550h596/20250306/1498-9e42b5d71444ba70cd15896874e570d7.png)
Manus 深入搜集了洛克菲勒家族并将家族关系整理成了清晰的关系图表
![](https://n.sinaimg.cn/finance/crawl/163/w550h413/20250306/d3ce-d8fa434c9a67ee3a5df7354837e925ed.png)
Manus 通过资料搜集、分析并发挥想象力为编剧创作者提供资料支持和灵感启发
![](https://n.sinaimg.cn/finance/crawl/180/w550h430/20250306/8f38-de80289b455349657880c0f4ec9fd85f.png)
根据财务记录文件审核公司的财务报表
![](https://n.sinaimg.cn/finance/crawl/177/w550h427/20250306/a6bd-0d683a216de6041ee937ba0b5b0cbec2.png)
描述你公司的业务和你期待的潜在 B 端客户画像,Manus 将为你深入 Mapping
![](https://n.sinaimg.cn/finance/crawl/230/w550h480/20250306/4454-5882e741dbe55f83d9a2a169e75be344.png)
Manus 为一家得克萨斯州的 BBQ 门店深入进行门店周边的数据估算和分析并提供销售额提升策略报告
![](https://n.sinaimg.cn/finance/crawl/197/w550h447/20250306/65cd-765c92c0214d1f9c6b28f40f0182d35f.png)
当你需要学习某个开源项目时,manus 会深入代码库理解代码,绘制系统结构图,并为你深入讲解项目细节
![](https://n.sinaimg.cn/finance/crawl/115/w550h365/20250306/ed89-8e998600b3ecf3f4fbb982cf08dbd4d5.png)
上传室内平面图,Manus 学习室内灯光设计科学后为你设计室内灯光
![](https://n.sinaimg.cn/finance/crawl/158/w550h408/20250306/1277-cad41710d1731d93e1f2ab77dfed6a79.png)
Manus 为你制作宇宙大小测量的互动课程网页
![](https://n.sinaimg.cn/finance/crawl/141/w550h391/20250306/11c3-1c371de7744d87023932b72188f41674.png)
为中学教师制作动量定理讲解的视频展示课件
![](https://n.sinaimg.cn/finance/crawl/244/w550h494/20250306/1d7e-159cee491ac1377c75821ef52bcc0ad4.png)
Manus 为你清晰、惊艳的制作 Transformer 架构的互动讲解网页
![](https://n.sinaimg.cn/finance/crawl/170/w550h420/20250306/2130-e9ece3a69264a90b153910c348b69420.png)
Manus 可以代理你深入体验某个网站的功能并作为一个产品专家为你写详尽的产品体验报告
![](https://n.sinaimg.cn/finance/crawl/166/w550h416/20250306/5281-f1ad329d348c8b0db0cad859726d12c8.png)
Manus 可以为记者或投资人深入整理待访谈人的全面信息并准备访谈所需的所有材料
![](https://n.sinaimg.cn/finance/crawl/143/w550h393/20250306/b293-293b1393f27b408bc045363fa36c51c0.png)
为你的复杂租赁合同制作一份关键信息表格
![](https://n.sinaimg.cn/finance/crawl/240/w550h490/20250306/c480-d99c443cdd7220e0c82b1a8c3912c41f.png)
我们想要 YC w25 batch 中所有的 B2B 公司的名单,Manus 自己操作 YC 官网筛选出符合要求的公司,并高效完成任务
![](https://n.sinaimg.cn/finance/crawl/253/w550h503/20250306/6585-d75e8f877085a5a6f75df97fd03a7161.png)
Manus 为我们讲解莱克星顿第一枪的战役过程时,配上了自己画的可视化地图
![](https://n.sinaimg.cn/finance/crawl/250/w550h500/20250306/0a01-1b2858001737fde64a88c170b06eb0e7.png)
你下一场的演讲需要个逐字稿提词器?Manus 将贴心地为你制作一个可控制速度、可控制字体大小、阅读清晰的 presentattion 文件
![](https://n.sinaimg.cn/finance/crawl/193/w550h443/20250306/7364-7b417b608c83ab9bc3146c8a18d8fa31.png)
让 Manus 深入研究美国在感恩节期间的各州移动互联网流量消费情况并制作丰富的可视化图表
![](https://n.sinaimg.cn/finance/crawl/64/w550h314/20250306/f638-2837731e2263f2d869625bd06b9afb71.png)
按照要求深入分析英伟达的财报
![](https://n.sinaimg.cn/finance/crawl/139/w550h389/20250306/baa6-69445b3ea2b4f06a00eef1a4db8385e0.png)
上传你的 Amzon 网店销售数据表格,Manus 为你深入分析、可视化并提供销售提升建议
![](https://n.sinaimg.cn/finance/crawl/208/w550h458/20250306/aeea-5cc2b208b0e56ac500f7dc07303a7ae7.png)
给 Manus 一个 Kaggle 竞赛网址,Manus 自己完成了代码编写,预测结果输出。一次打到了前 10% 的成绩
![](https://n.sinaimg.cn/finance/crawl/138/w550h388/20250306/d30b-4a234989dc53cbd60f9523a257b0c637.png)
Manus 为你定制个性化的小游戏。来试试泽连斯基白宫论战模拟器
![](https://n.sinaimg.cn/finance/crawl/394/w550h644/20250306/15bf-761ef7aa08a2b687b2c5bb9464564c00.png)
让 Manus 为你的播客节目剪个两分钟的金句合集吧!
![](https://n.sinaimg.cn/finance/crawl/173/w550h423/20250306/89d8-b98abf5be858bd0d583c4f250ef9ea2d.png)
Manus 不仅会润色你的文章,还能贴心地让美化文章的排版
![](https://n.sinaimg.cn/finance/crawl/149/w550h399/20250306/600f-b9e436796dc2064b8f4145afb106891a.png)
Manus 深入研究整理了服装行业的 AI 搜索产品,并进行详尽的产品分析
![](https://n.sinaimg.cn/finance/crawl/152/w550h402/20250306/27a5-d1f757e772008b716a06ee1803d2b256.png)
如果你需要了解某个产品真实的市场反馈,Manus 会为你详细整理分析电商平台对该产品的客户评论
![](https://n.sinaimg.cn/finance/crawl/184/w550h434/20250306/ab43-c9b3b435928fc4fbcafcf10b66a4111a.png)
Manus 通过深度研究和数据分析详尽论证 AWS 未来千亿市值的可能性
![](https://n.sinaimg.cn/finance/crawl/170/w550h420/20250306/1c27-6b073b6628e446799c1cbd137e1ce7cc.png)
Manus 自己找到并研究了 24 年所有重要的 AR/AI 产品和行业动态
![](https://n.sinaimg.cn/finance/crawl/150/w550h400/20250306/0476-a9f98c76ebcd9664a1831601a6cc2102.png)
Manus 通过一手信息源的追踪整理,深入细节研究了过去十年美国 AI 产业政策
![](https://n.sinaimg.cn/finance/crawl/118/w550h368/20250306/2fe0-bde82021c849ebe3455f70d2aefd4c77.png)
一次性上传 25 份候选人简历,manus 会按要求制作候选人信息表格,甚至能为你评估潜在候选人
![](https://n.sinaimg.cn/finance/crawl/153/w550h403/20250306/f355-112374f3aa5ac73517950037a3a0273f.png)
Manus 可以让你轻松知道某个话题在 Twitter\\youtube 等社交媒体上的舆论情况
![](https://n.sinaimg.cn/finance/crawl/145/w550h395/20250306/9e79-4d39cd0da623efea852f7367ecd79919.png)
Manus 调研市场上 Top 20 的 CRM 机构,并整理出了各自的 Slogan 与品牌故事。
![](https://n.sinaimg.cn/finance/crawl/172/w550h422/20250306/10ac-fc8e33cc8f16f65a31712b0631bf6b7a.png)
Manus 不仅能整合各类信息为你提供详尽的个性化旅行定制,还能为做一个专属你这次旅行的 handbook。
![](https://n.sinaimg.cn/finance/crawl/173/w550h423/20250306/21f4-f8db900c6c41e02df28274ad40b9e421.png)
我们让 Manus 完成了对 Andrej Karpathy 的个人网站的 SEO 优化报告,只需要甩给 Manus 一个网址即可
![](https://n.sinaimg.cn/finance/crawl/168/w550h418/20250306/3f83-8f2494d31d4fa3801190e5211dcb2649.png)
Manus 通过深入的公开资料研究,为你撰写一份 Adobe 的公司传记。Manus 可以真正为你关心的主题写一本书,你再也不用担心读不到你喜欢的名人或公司的传记了。
![](https://n.sinaimg.cn/finance/crawl/138/w550h388/20250306/4898-b3adfb9ea49581f867e8022a3718c911.png)
通过上面的例子,你会发现  Manus 与 ChatGPT、Claude 这类传统聊天[机器人](https://finance.sina.com.cn/realstock/company/sz300024/nc.shtml)有本质区别。
- Manus 拥有强大的工具调用能力:它不仅能理解你的需求,还能主动调用浏览器、代码编辑器、数据分析工具等完成复杂任务。它不只是告诉你“应该怎么做”,而是直接为你把事情做好,将最终成果交付给你。
- 运行在云端的 Manus 有自己的计算环境:能够独立工作而不需要你的持续监督。你只需提出需求,然后去处理其他事务,它会在后台自主完成任务。这种“委托 - 交付”模式真正解放了你的时间和注意力。
- 与 Manus 的协作更像与人类同事合作,而非使用工具:你可以随时介入调整方向,中途更改需求,Manus 会灵活适应。当某次任务完成得特别好,你可以直接告诉它“以后都这样做”,它会记住你的偏好,不断调整工作方式,成为越来越懂你的伙伴。
因此,Manus 特别擅长处理繁琐的文件批处理任务,如批量简历整理、文件格式转换、合同财报审核等:
- 它能进行深度调研分析,从多渠道搜集信息,提供全面而有见解的研究报告。
- 面对复杂生活决策,Manus 可以帮你比较选项、规划旅行,让决策过程变得轻松。
- 在数据分析方面,Manus 会自动找到相关数据源,编写代码分析并创建直观的可视化效果。
- 如果你的需求同时涉及多个领域,Manus 的价值会更加凸显。我们也在不断探索它的边界和可能性,欢迎一起发现更多创新用法。
那么,和 Manus 的协作,也会和 ChatGPT 略有不同:
- 清晰表达很重要:你需要更为明确对最终成果的期望、格式要求和质量标准。
- 对于复杂任务,采用渐进式方法更有效:先让 Manus 完成一部分,再根据中间结果调整下一步。这种迭代式协作常能带来超出预期的成果。
- 要善用 Knowledge 系统添加你的特定要求:或在 Manus 完成满意操作后,告诉它“记住这种方式”,让它在未来工作中应用这些经验。
- 发现任务执行方向有偏差时,立即介入指导,告诉它“试试别的方法”。Manus 会迅速调整策略,避免在错误方向上浪费时间。
当然,目前 Manus 还在内测,问题不少,包括不仅限于:
- 在部份需要扫描、过验证的网站,可能会被卡死:尤其是知乎
- 在任务执行时,可能会卡在某一环节
![](https://n.sinaimg.cn/finance/crawl/793/w550h243/20250306/e144-ea5749c3c867e1a612d119e917952a41.png)
- 如果任务过长(超出上下文),可能会宣告失败
![](https://n.sinaimg.cn/finance/crawl/367/w550h617/20250306/8cf9-fe945839717f6c196dd896a03188a51b.png)
对此,朋友也坦言正在持续优化,毕竟,这还只是最开始。
此刻,中国团队在通用智能体赛道上,迈出了实质性的第一步。
2025,东方破晓
> 来源:赛博禅心
@@ -0,0 +1,43 @@
# 新推理模型来了!阿里 Qwen Chat 平台已上线“深度思考”功能,支持联网搜索
新推理模型来了!  阿里 Qwen Chat 平台已上线“深度思考”功能,支持联网搜索
2025 年 02 月 25 日 14:52[时代财经](https://www.tfcaijing.com/article/page/6856506a786e4d506137683564496870722f435576513d3d)
[新浪财经 APP](https://finance.sina.com.cn/mobile/comfinanceweb.shtml "语音播报")[缩小字体](javascript:; "缩小字体")[放大字体](javascript:; "放大字体")[收藏](javascript:; "收藏本页")[微博](javascript:; "分享到微博")[微信](javascript:; "分享到微信")[分享](javascript:; "更多分享")
[腾讯 QQ](javascript:; "分享到QQ")[QQ 空间](javascript:; "分享到QQ空间")
阿里近来在 AI 领域动作不断。
阿里 Qwen 团队今日早间在社交媒体宣布发布新推理模型——深度思考 (QwQ)。这是在 QWQ-MAX-PREVIEW 支持下,一个基于 Qwen2.5-Max 的推理模型。
QWQ 是类似 DeepSeek R1 和 kimi 的推理模型,QwQ 可同时支持深度思考和联网搜索,并会展示完整的思维链。Qwen 团队称,QWQ-MAX 官方版本即将发布,同步会发布 Android 和 iOS 应用程序,还会发布更小的可在本地设备部署的模型,如 QWQ-32B 等。
值得注意的是,在发布该新功能的同时,通义千问团队表示其获得了 qwen.ai 域名,用户可以通过 chat.qwen.ai 访问千问聊天。
![](https://n.sinaimg.cn/spider20250225/630/w748h682/20250225/e659-16588f57769dd35c91a54096782b61ec.jpg)
与 DeepSeek 类似,Qwen Chat 的交互界面左下方有深度思考(QWQ)和联网搜索两个选项,点亮这两个选项后,Qwen Chat 就可以执行同 DeepSeek 一样的功能。
通义千问团队表示,未来将发布 QwQ-Max 的正式版本。
1 月底,阿里发布了 AI 基础大模型千问旗舰版 Qwen2.5-Max,在多项权威基准评测中,处于业界领先水平。目前,Qwen 的全球衍生模型已突破 9 万个,全球排名第一。
阿里近来在 AI 领域动作不断。
2 月 24 日,阿里巴巴集团 CEO 吴泳铭宣布,未来三年,阿里将投入超过 3800 亿元,用于建设云和 AI 硬件基础设施,总额超过去十年总和。这也创下中国民营企业在云和 AI 硬件基础设施建设领域有史以来最大规模投资纪录。
截至目前,阿里巴巴的核心业务阿里云已在全球 29 个地域运营 87 个可用区,服务全球 500 万客户。
此前,摩根士丹利已将阿里巴巴 ADR 评级上调至超配,目标价 180 美元。
二级市场上,2 月 21 日,阿里巴巴-W(9988.HK)股价涨幅达 14.56%,创 2021 年 11 月以来新高,当日成交额 444.6 亿港元,位居港股首位,总市值 26326 亿港元。
中信建投认为,近期港股行情主要由产业催化,DeepSeek 横空出世推动中国 AI 产业迈向新阶段。自 1 月底开始,港股市场受到科技板块的引领开始快速回升。资金结构方面,外资短期冲击强,而南向延续稳定持续流入的态势,将成为港股市场长期增量资金的主要来源。从后续走势来看,资金关注度或将从科技股转向价值股。长期来看,港股牛市将进一步延续。
浙商国际指出,本轮港股“春躁”行情,市场结构化特征明显,鉴于市场乐观情绪仍在发酵,短期看好市场继续向上。但考虑到当前技术指标存在超买现象,并且此轮行情仅主要依靠科技股估值修复带动,因此仍需警惕短期回调风险。预计市场在此轮估值修复后,仍将以震荡行情为主。
> (时代财经冯恋阁综合自蓝鲸新闻、新京报、界面新闻、每日经济新闻、经济观察报、证券日报等)
>
> 来源:新浪科技
@@ -0,0 +1,43 @@
# 用于临床工作流程的新 AI 助手,微软推出 Microsoft Dragon Copilot
![<mark data-type=institutions data-id=8a8ef293-102d-482f-a616-12a37827b3f9>Microsoft</mark>, antitrust, Alaily, FTC. Google](https://image.jiqizhixin.com/uploads/editor/247c3683-00a8-4d6a-aa97-bc77e6750b20/640.jpeg)
在 HIMSS 2025 上,微软团队宣布推出了 Microsoft Dragon Copilot,这是一款全新的语音解决方案,可改变临床医生的工作方式。
![图片](https://image.jiqizhixin.com/uploads/editor/ab7bd37e-ef53-4c2a-b25c-286f455b6d86/640.jpeg)
自 2022 年以近 200 亿美元收购临床文档公司  Nuance  以来,微软稳步将该业务打造为一套临床辅助工具,其中包括使用语音识别软件记录患者信息的 Dragon Medical One,以及人工智能支持的临床助理 DAX Copilot,这是一款人工智能支持的临床助理和决策支持工具。
Dragon Copilot 在这些技术的基础上进一步简化了文档编制、显示信息并自动执行了整个护理环境中的任务。它是一个可扩展的 AI 工作区,可提供统一的体验,与 Epic 等电子健康记录 (EHR) 集成,并为临床医生工作流程的所有阶段提供支持。
作为 Microsoft Cloud for Healthcare 的一部分,它建立在安全、现代的架构上,可以将临床生产力提升到新的高度,同时有助于提高临床医生的健康和患者体验,提高效率并改善财务影响。
![A screenshot of Dragon Copilot's welcome page.](https://image.jiqizhixin.com/uploads/editor/2620d3aa-8622-448a-8fb9-a9970ba6ea51/640.jpeg)
Dragon 和 DAX Copilot 总经理 Ken Harper 表示,超过 60 万名临床医生使用 Dragon Medical One 记录了数十亿份患者记录,而 DAX Copilot 在过去一个月内为 600 家医疗机构生成了超过 300 万次医患对话。
但 Dragon Copilot 将这些产品结合在一起,并用生成式人工智能为它们提供支持,Harper 在与新闻界的通话中称此举是「迄今为止我们取得的最令人兴奋的进步」。
Harper 说,Copilot 的目标是「将一切统一为一种体验」。
在推出 Copilot 之前,使用 Microsoft 工具的医生必须在不同的特定任务应用程序之间切换。据 Harper 介绍,现在,临床医生可以在一个地方口述笔记并自动执行任务。
Copilot 的不同之处还在于它使用 AI 让临床医生查询来自外部来源(如疾病控制和预防中心或食品药品管理局)的记录和其他信息。
例如,医生可以询问 Copilot 某个病人是否应该接受肺癌筛查,而 Copilot 的答案将包含这些经过审查的来源的链接,从而帮助医生验证准确性,Harper 表示。
生成式人工智能产品可以生成原始文本和图像,但偶尔也会出错,这也是人们担心医疗保健领域越来越多地采用此类产品的原因之一。另一个原因是缺乏标准化监管,私营部门团体(其中最大的团体包括微软或由微软领导)表示正在努力弥补这一缺陷。
Copilot 查询医疗来源的能力类似于谷歌去年推出的一款名为 Vertex AI Search 的产品,该产品可以搜索大量医疗文本和图像来回答医生和医护人员的问题。
更不用说过去几年中,Suki、Abridge 和 Nabla 等公司推出的大量 AI 临床助理也进入了市场。
但 Harper 表示,Dragon Copilot 与众不同。「与其他助手相比,Dragon Copilot 最大的不同在于其可用功能的范围。」而且列出了听写、环境聆听、自然语言处理、自定义模板创建和信息搜索。
「还有很多其他能力,但都只针对单一技能。」他说。
总之,Dragon Copilot 用了最新的 AI 模型来帮助高效、一致地生成准确的文档;让用户在需要时可以随时调取查询记录、获取医疗信息、接收会诊记录建议等相关信息;帮助临床医生自动执行临床和非临床任务。
从总结笔记和证据,到准备医嘱、起草转诊信和就诊总结,它节省了时间并提高了临床医生的生产力和效率。
> 来源:机器之心
@@ -0,0 +1,17 @@
# 百度推出两款 AI 大模型
中国互联网巨头百度推出两款新人工智能(AI)大模型,并免费向用户开放。
百度在微信公众号公布,文心大模型 4.5 和文心大模型 X1 星期天(3 月 16 日)正式发布。
据百度介绍,文心大模型 4.5 是百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。
文心大模型 X1 则具备更强的理解、规划、反思、进化能力,并支持多模态,是首个自主运用工具的深度思考模型。
百度介绍,作为能力更全面的深度思考模型,文心大模型 X1 兼备准确、创意和文采,在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。
彭博社报道,文心大模型 X1 工作原理与深度求索(DeepSeek)R1 类似。
百度是中国首家推出仿照 OpenAI ChatGPT 聊天机器人的科技行业企业,但字节跳动、月之暗面 AI 等竞争对手的聊天机器人,很快就占据主导地位。阿里巴巴的通义千问、DeepSeek 等开源模型,也获得全球开发者群体的更大认可。
> 来源:联合早报
@@ -0,0 +1,85 @@
# 腾讯混元 T1 正式版发布
2025 年 3 月 21 日,腾讯正式推出自研深度思考模型混元 T1 正式版。这款基于 Hybrid-Mamba-Transformer 融合架构的推理大模型,不仅以“首字秒出、吐字速度 60-80 tokens/s”刷新行业效率标杆,更在数学、逻辑推理等硬核领域展现了逼近人类专家的能力。其发布标志着大模型技术从“通用能力竞赛”迈入“垂直场景效能革命”的新阶段。架构创新 传统大模型受限于 Transformer 架构的
![](https://developer.qcloudimg.com/editor/image/5421023/20250326-ae54d37e.png)
2025 年 3 月 21 日,腾讯正式推出自研深度思考模型混元 T1 正式版。这款基于 Hybrid-Mamba-Transformer 融合架构的推理大模型,不仅以“首字秒出、吐字速度 60-80 tokens/s”刷新行业效率标杆,更在数学、逻辑推理等硬核领域展现了逼近人类专家的能力。其发布标志着大模型技术从“通用能力竞赛”迈入“垂直场景效能革命”的新阶段。
![](https://developer.qcloudimg.com/editor/image/5421023/20250326-536860f5.png)
## **架构创新**
传统大模型受限于 Transformer 架构的计算复杂度,面临“提升性能必增成本”的困境。混元 T1 采用的 **Hybrid-Mamba-Transformer 融合架构**,通过三大技术创新打破僵局:
1. **Mamba 组件专攻长序列**:针对数学证明、代码分析等需要长距离依赖的场景,以普通 Transformer 1/5 的计算量维持信息连贯性,解决长文本推理中的“上下文丢失”顽疾。
2. **动态路由的 MoE 系统**:自动激活特定任务专家模块(如代码、数学单元),在保持 32k 上下文窗口的同时,将解码速度提升 2 倍。
3. **内存优化设计**:通过降低 KV-Cache 内存占用,使单次训练成本下降 40%,推理能耗仅为同类模型的 60%。
这一架构让混元 T1 在保持顶级性能的同时,输入定价低至 **1 元/百万 tokens**,输出价格仅 4 元,创行业成本新低。
![](https://developer.qcloudimg.com/editor/image/5421023/20250326-e525536e.png)
## **性能突破**
混元 T1 的专项优化策略使其在硬核推理领域得到提升:
- **数学能力**:在 MATH-500 评测中取得 96.2 分,可解包含 10 步以上推导的奥数难题,与 DeepSeek R1、O1 形成“三足鼎立”。
- **代码场景**LiveCodeBench 评测 64.9 分,超越 O1 的代码生成质量,尤其在动态调试建议方面展现独特优势。
- **批判性思维**:能够识别用户提问中的逻辑矛盾(如自相矛盾的快递违禁品询问),并主动进行多视角分析,这在快递 100 智能体的实际应用中已得到验证。
特别值得关注的是其中文能力——在 CEval 中文基准测试中,其表现大幅超越 GPT-4.5,与 DeepSeek R1 持平,打破了“英文模型更强”的固有认知。
![](https://developer.qcloudimg.com/editor/image/5421023/20250326-19af4989.png)
## **行业落地**
混元 T1 的技术突破正在转化为实际商业价值:
1. **物流智能化**:在腾讯元宝平台,快递 100 智能体通过接入 T1 实现了三大升级:
- 隐性需求洞察:当用户询问“寄荔枝是否易坏”时,能自动关联保鲜方案建议而非简单回答合规性。
- 跨平台比价:整合 2100 家快递公司数据,提供运费智能推荐。
- 风险预警:识别用户诱导性提问(如故意将荔枝归为违禁品),展现合规性判断与友好沟通的平衡。
2. **科研加速**:测试显示,模型可辅助完成“新冠病毒刺突蛋白突变体实验设计”等博士级课题,将复杂科研任务的初期方案生成时间从 72 小时压缩至 3 小时。
3. **工业部署**:在芯片设计场景中,其长文本处理能力使布线优化任务耗时从 9 小时降至 1.5 小时,功耗降低 12%。
![](https://developer.qcloudimg.com/editor/image/5421023/20250326-c56ecc25.png)
## **技术普惠**
为降低使用门槛,腾讯采取双重策略:
- **成本革命**:API 价格体系较前代下降 50%,中小企业可凭千元预算启动专业级 AI 应用开发。
- **工具链优化**:提供自动上下文管理接口,开发者无需手动设计 prompt 即可调用长文本推理能力,这在技术文档分析、法律合同审查等场景显著提升开发效率。
## **行业启示**
混元 T1 的发布折射出大模型发展的新方向:
1. **架构杂交化**Transformer、Mamba、MoE 等组件的灵活搭配成为主流,2025 年已有 73% 的新发布模型采用混合架构。
2. **训练集约化**:96.7% 的算力投入强化学习阶段,形成“预训练打基础-RL 精调出性能”的新范式。
3. **场景深挖化**:从通用对话转向数学/代码/科学等“高壁垒、高价值”垂直领域,预计到 2026 年,专业推理模型市场规模将突破千亿元。
![](https://developer.qcloudimg.com/editor/image/5421023/20250326-a9bc4176.png)
![](https://developer.qcloudimg.com/editor/image/5421023/20250326-127b6821.png)
## 结语
混元 T1 的推出不仅是技术指标的突破,更预示着 AI 产业价值评估体系的转变——当参数规模触及物理极限, **“单位算力效能”与“垂直场景穿透力”** 将成为新的竞争焦点。正如腾讯云 AI 负责人吴运声老师所言:“未来的 AI 竞赛,不是比谁能建更大的模型,而是比谁能用更聪明的架构解决更实际的问题。”在这场静默的革命中,混元 T1 已为行业树立了新的路标。
![](https://developer.qcloudimg.com/editor/image/5421023/20250326-412c179b.png)
> 来源:腾讯云开发者社区
@@ -0,0 +1,23 @@
# 谷歌 Gemini 新增 Canvas 与音频概览功能,提升用户生产力
IT 之家 3 月 19 日消息,谷歌在其 AI 驱动的 Gemini 聊天机器人中新增了一项名为 Canvas(画布)的功能,标志着谷歌在将聊天机器人平台转变为全面生产力套件的道路上又迈出了重要一步。
![](https://n.sinaimg.cn/spider20250319/560/w1080h1080/20250319/9c66-924669f5386a06eb1bbc964bc765b481.jpg)
Canvas 与 OpenAI 的 ChatGPT Canvas 工具以及 Anthropic 的 Artifacts 在概念上相似,它为 Gemini 用户提供了一个互动空间,用户可以在其中创建、完善并分享写作和编程项目。谷歌 Gemini 产品经理戴夫・西特伦(Dave Citron)在一篇博客文章中表示:“Canvas 旨在与 Gemini 实现无缝协作。凭借这些新功能,Gemini 正在成为一个更有效的协作伙伴,帮助用户将创意变为现实。”
此类工作空间是 AI 公司将聊天机器人平台转型为生产力套件的最新尝试。与单纯的文本界面相比,专门的工作空间能够提供更高的精准度,并且能够实时预览代码。
Gemini Canvas 可以通过 Gemini 的提示栏(网页端和移动端)启动,用户可以使用它与 Gemini 聊天机器人共同起草长篇信息,随后进行编辑和微调。借助 Canvas,用户可以更新草稿的特定部分,并通过专用工具调整语气、长度和格式。西特伦在博客中举例说明:“例如,你可以突出显示一个段落,然后要求 Gemini 将其变得更简洁、更专业或更随意。如果你希望与他人协作编辑你刚刚创建的内容,只需点击一下,就可以将其导出到谷歌文档中。”
![](https://n.sinaimg.cn/spider20250319/650/w1440h810/20250319/f688-0c6a11cf87525eefe3838ee4ee667f18.jpg)
Canvas 还具备编程功能,包括一项允许用户生成和预览 HTML、React 代码以及其他 Web 应用程序原型的功能。用户可以要求 Gemini 对预览内容进行修改,Canvas 将会迭代刷新预览效果。西特伦在博客中写道:“例如,如果你想为你的网站创建一个电子邮件订阅表单,你可以要求 Gemini 生成表单的 HTML 代码,然后预览它在你的网络应用中的外观和功能。”
IT 之家注意到,除了 Canvas 之外,谷歌还宣布将 NotebookLM 的音频概览(Audio Overview)功能引入 Gemini。谷歌的 NotebookLM 去年因音频概览功能而走红,该功能能够创建听起来非常真实的播客风格音频摘要,涵盖文档、网页和其他来源的内容。与 NotebookLM 中的音频概览功能类似,Gemini 中的音频概览功能接受多种格式的文件和内容。通过提示栏上传文档将触发音频概览快捷方式,生成摘要后,用户就可以通过 Gemini 应用程序在网页端或移动端下载或分享。
![](https://n.sinaimg.cn/spider20250319/447/w901h346/20250319/70d7-6e1dd0695f6dd27bc66ce0e95e660075.jpg)
目前,Canvas 和音频概览功能已向全球 Gemini 用户免费开放。不过,Canvas 的代码预览功能目前仅限于网页端使用,而音频概览的摘要内容仅限于英语。
> 来源:IT 之家
@@ -0,0 +1,29 @@
# 谷歌发布 Gemini 2.5 人工智能模型,实现复杂思维
周二,谷歌发布了 Gemini 2.5,这是一系列新的人工智能推理模型,可以在回答问题之前停下来思考。
为了启动新模型系列,谷歌推出了 Gemini 2.5 Pro Experimental,这是一款多模式推理 AI 模型,该公司声称这是迄今为止最智能的模型。
该模型将于周二在公司的开发者平台 Google AI Studio 以及 Gemini 应用程序中推出,供该公司每月 20 美元的 AI 计划 Gemini Advanced 的订阅者使用。
展望未来,谷歌表示其所有新人工智能模型都将具备推理能力。
自 OpenAI 于 2024 年 9 月推出首个 AI 推理模型以来,科技行业一直在竞相用自己的模型来匹敌或超越该模型的能力。如今,Anthropic、DeepSeek、Google 和 xAI 都拥有 AI 推理模型,这些模型利用额外的计算能力和时间来核实事实并推理问题,然后再给出答案。
推理技术帮助人工智能模型在数学和编码任务上取得了新的高度。科技界的许多人认为推理模型将成为人工智能代理的关键组成部分,人工智能代理是一种可以在没有人工干预的情况下执行任务的自主系统。然而,这些模型也更昂贵。
谷歌之前曾尝试过 AI 推理模型,并于 12 月发布了 Gemini 的思考版本。但 Gemini 2.5 代表了该公司迄今为止最认真的尝试,旨在超越 OpenAI 的 o 系列模型。
谷歌声称,Gemini 2.5 Pro 在多个基准测试中的表现均优于其之前的前沿 AI 模型以及一些领先的竞争 AI 模型。具体来说,谷歌表示,Gemini 2.5 的设计旨在打造出视觉效果出众的 Web 应用和代理编码应用程序。
在一项名为 Aider Polyglot 的代码编辑评估中,谷歌表示 Gemini 2.5 Pro 的得分为 68.6%,超过了 OpenAI、Anthropic 和中国人工智能实验室 DeepSeek 的顶尖人工智能模型。
然而,在另一项衡量软件开发能力的测试 SWE-bench Verified 中,Gemini 2.5 Pro 的得分为 63.8%,优于 OpenAI 的 o3-mini 和 DeepSeek 的 R1,但低于 Anthropic 的 Claude 3.7 Sonnet,后者的得分为 70.3%。
谷歌表示,在人类的最后考试中,Gemini 2.5 Pro 的得分为 18.8%,表现优于大多数竞争对手的旗舰机型。人类的最后考试是一场多模式测试,包含数千道涉及数学、人文和自然科学的众包问题。
首先,谷歌表示 Gemini 2.5 Pro 配备了 100 万个 token 上下文窗口,这意味着 AI 模型一次可以接收大约 75 万个单词。这比整个《指环王》系列丛书的长度还要长。很快,Gemini 2.5 Pro 将支持两倍的输入长度(200 万个 token)。
谷歌尚未公布 Gemini 2.5 Pro 的 API 定价。该公司表示将在未来几周内公布更多信息。
> 海量资讯、精准解读,尽在新浪财经 APP
@@ -0,0 +1,53 @@
# 阿里开源全新推理模型 QwQ-32B,一台 Mac 就能实现顶级推理能力
QwQ-32B 在数学推理、编程能力等问题解决方面表现出色。
![](https://image.deeptechchina.com/article/2025030617482916990.jpg?imageView2/2/w/504/h/280)
3 月 6 日,阿里巴巴旗下的 Qwen 团队用一条题为《QwQ-32B:拥抱强化学习的力量》的博文公布了全新的开源大型推理模型 QwQ-32BQwen-with-Questions), **这款仅有 320 亿参数的模型通过强化学习技术,在多项基准测试中展现出与拥有 6710 亿参数(激活参数 37B)的 DeepSeek-R1 相媲美的性能。**
![](https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/c542f1bf17b649cba8ea19d6ce711565~tplv-obj.image?lk3s=ef143cfe&traceid=20250306174815379FC88CD6E60CAAFA41&x-expires=2147483647&x-signature=xdR2Wp5WbD9B%2BWT2FX%2F0vW6lqD8%3D)图丨相关博文(来源:Qwen)
**QwQ-32B 在数学推理、编程能力等问题解决方面表现出色。** 根据官方发布的基准测试结果,在数学推理基准 AIME24 上,QwQ-32B 达到了 79.5 分,几乎与 DeepSeek-R1 的 79.8 分持平,远超 OpenAI o1-mini 的 63.6 分,也超过了 DeepSeek-R1 蒸馏到 Llama-70B 和 Qwen-32B 的版本(分别为 70.0 和 72.6 分)。
在编程能力方面,QwQ-32B 在 LiveCodeBench 上获得了 63.4 分,接近 DeepSeek-R1 的 65.9 分,明显优于 o1-mini 的 53.8 分和蒸馏模型。在 LiveBench 测试中,QwQ-32B 得分 73.1,与 DeepSeek-R1 的 71.6 分相当,且大幅领先于 o1-mini 的 59.1 分。在 IFEval 和 BFCL 上,也略微超过了 R1。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/ff7bf02edeb64585b4d6e43175a8ba79~tplv-obj.image?lk3s=ef143cfe&traceid=20250306174815379FC88CD6E60CAAFA41&x-expires=2147483647&x-signature=kRHH16M0%2BB8mfN2sveulfBXBdDw%3D)图丨基准测试结果(来源:Qwen)
Hugging Face 的 Vaibhav Srivastav 在评测后发表评论: **“QwQ-32B 在 Hyperbolic Labs 支持下的推理速度‘快得惊人’,完全可与顶级模型媲美。”**“在 Apache 2.0 许可下,它成功击败了 DeepSeek-R1 和 OpenAI o1-mini。”
![](https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/0685ce5b6c544138b63d22dc91836c61~tplv-obj.image?lk3s=ef143cfe&traceid=20250306174815379FC88CD6E60CAAFA41&x-expires=2147483647&x-signature=RM7ELIeQ6JwYUUBeDetxW3IqDIA%3D)图丨相关推文(来源:X)
不过,有部分用户反应,QwQ-32B 有时会出现过度思考的问题,哪怕是很简单的问题也会生成大量的思维链(比如在经典的“Strawberry”问题上,它会输出近七万字的思维链),导致其输出结果的速度较慢。
模型架构方面,QwQ-32B 采用因果语言模型架构,具有 64 层 Transformer 结构,相比常见的模型层数更深。它完整集成了 RoPE(旋转位置编码)、SwiGLU 激活函数、RMSNorm 层归一化和 Attention QKV 偏置,这些都是当前先进大模型的标准配置。
模型采用了广义查询注意力机制,具体配置为 40 个查询头、8 个键值对头,这种配置优化了注意力机制的效率和性能。 **QwQ-32B 的上下文窗口长度高达 131,072 个 token,远超普通模型,支持超长文本处理。**
QwQ-32B 的训练过程分为三个阶段:预训练、监督微调和强化学习,其中强化学习又分为两个关键阶段:
第一阶段聚焦于数学和编程能力的提升。Qwen 团队从冷启动检查点开始,采用基于结果的奖励驱动的强化学习扩展方法。在数学问题训练时,模型使用专门的准确性验证器(Accuracy Verifier),而非传统奖励模型;编程任务则通过代码执行服务器(Code Execution Server)评估代码是否通过预定义测试用例。训练过程中,随着训练轮次增加,两个领域的性能持续提升。
第二阶段则侧重通用能力增强。模型引入通用奖励模型和规则验证器进行训练。即使是少量的训练步骤,也显著提升了指令跟随、人类偏好对齐和智能体性能,并且实现通用能力提升的同时,不显著降低第一阶段获得的数学和编程能力。
由此,QwQ 得以在 32B 的小参数上就实现了强大的推理能力。昨天还在感叹花八九万买 512GB 内存 M3 Ultra 的 Mac Studio 就能运行完整版 DeepSeek-R1 了(甚至还需要量化),但现在,只需要几千块的 Mac Mini,你就能获得接近的体验。
而且,QwQ-32B 的小参数量带来了更低的延迟和更高的吞吐量。在相同硬件条件下,小参数模型在推理速度上具有天然优势,能够提供更快的响应时间和更高的并发处理能力。对于一些中小型研究团队、初创企业和个人开发者来说,这无疑大大降低了他们使用先进推理模型的门槛。
而且,QwQ-32B 也整合了与智能体相关的能力,使模型能够在思考的同时使用工具,并根据环境反馈调整推理过程。在此基础上,QwQ-32B 就可以作为企业自动化流程中的核心推理引擎,处理从数据分析、报告生成到编程辅助等各种复杂任务。
目前, **QwQ-32B 已在 Hugging Face 和 ModelScope 上以 Apache 2.0 许可开源,个人用户也可通过 Qwen Chat 直接体验该模型。**
从 DeepSeek-R1 到 diffusion LLMs,再到 QwQ-32B,最近的一系列突破似乎让实现顶级性能模型所需要的算力越来越低,尽管未来对于高性能芯片的总需求或许并不会减少,但这种变化对于那些以往依赖大量计算资源的巨头们来说,恐怕免不了造成一些冲击。
参考资料:
https://qwenlm.github.io/zh/blog/qwq-32b/
运营/排版:何晨龙
2025 年 03 月 05 日
![](https://image.deeptechchina.com/article/2021081911453445027.jpg)
> 来源:www.mittrchina.com
@@ -0,0 +1,122 @@
# 马斯克进军 AI 视频,收购视频生成初创公司,4 人 13 个月打造类 Sora 模型
[量子位](https://36kr.com/user/1852809498)_·_ 2025 年 03 月 18 日 03:06
“预计将在几个月内发布 Grok 视频模型”
马斯克也要打造自己的视频生成模型了??
就在最近,xAI 收购了一家视频生成初创公司,这家仅 4 个人的公司过去两年打造出了 **Hotshot** 这款产品。
![](https://img.36krcdn.com/hsossms/20250318/v2_7f5104061e2f440f9066d9a275da5aa6@5888275_oswg297852oswg1080oswg1012_img_000?x-oss-process=image/format,jpg/interlace,1)
据公告介绍,Hotshot 至今已有 3 款视频生成基础模型。被收购之后,目前已停止推出新的视频创作功能,而且用户过往创作的视频截止下载时间为 3 月 30 日。
一看这架势,网友们纷纷想起了老马在今年 1 月的一场直播活动中掷下的豪言:
> **预计将在几个月内发布 Grok 视频模型**
而且就在 Hotshot 联创&CEO 公布上述消息之后,老马也第一时间跑来卖关子:
> 酷炫视频 AI 即将到来!
![](https://img.36krcdn.com/hsossms/20250318/v2_45717b4932e141709b7b5e840f78129b@5888275_oswg74482oswg1080oswg262_img_000?x-oss-process=image/format,jpg/interlace,1)
期待值被拉满的同时,众人也齐刷刷表达了对 Hotshot 团队的祝贺:
![](https://img.36krcdn.com/hsossms/20250318/v2_2f64139896864421956944279a2f9735@5888275_img_000?x-oss-process=image/format,jpg/interlace,1)
那么,这是一家怎样的团队呢?为什么它能被马斯克“看上”?
答案这就揭晓——
## **4 人团两年打造“Sora”**
概括而言,Hotshot 之所以能入老马的眼,原因显然在于两方面:
一是 **“小团队也有大能量”**,据悉 Hotshot 团队一共只有 4 个人,但他们在 13 个月里连续训练出了 3 个视频生成模型,且获得了一定程度的用户关注;二是虽然成立不久, **但投资者中不乏 Reddit 联合创始人 Alexis Ohanian 等大佬**
从 Hotshot 官网公布的信息来看,这个 4 人小团队在两年时间里成功打造出了“Sora”模型。
![](https://img.36krcdn.com/hsossms/20250318/v2_5baf03210f0749b98d21f374594b07eb@5888275_oswg594954oswg1080oswg933_img_000?x-oss-process=image/format,jpg/interlace,1)
4 人中有两位是联合创始人。
联创&CEO **Aakash Sastry**(右边),和另一位联创&CTO **John Mullan**(左边)早在 2012 年就相识了。
![](https://img.36krcdn.com/hsossms/20250318/v2_1292e07f1531450ca807a43ec3b3fe91@5888275_oswg1052060oswg1024oswg1024_img_000?x-oss-process=image/format,jpg/interlace,1)
认识之前,前者正在构建一个视频聊天应用,后者正在尝试打造视觉通讯应用(visual communication apps)。
不过,在看到 Aakash Sastry 的视频聊天应用失败之后(本以为是很酷的想法,结果可能因为理念超前,大家很害怕视频通话),两人一致意识到:
> 我们需要创造一个让人们在网上表达自己的同时,也感到舒适和自由的环境。
于是,Hotshot 逐渐诞生了。
2017 年,两人共同成立了一家公司——Natural SyntheticsHotshot 背后公司),开始构建各种不同的社交应用。
到了 2023 年 1 月,他们正式在 iOS 应用商店发布了 Hotshot。
不过需要注意,Hotshot 一开始并不是做 AI 视频生成,而是 **图片生成**
基于开源的图片生成模型 Stable DiffusionHotshot 为用户免费提供个人、朋友甚至是名人的图片。
![](https://img.36krcdn.com/hsossms/20250318/v2_dbf6efe467424d26b4e6e0b104f3fa38@5888275_oswg318124oswg512oswg512_img_000?x-oss-process=image/format,jpg/interlace,1)
直到后来逐渐被视频生成吸引,因此他们又开始训练视频生成模型。
和之前类似,一开始他们也打算基于开源模型构建,不过后面意识到:1)基础模型需要大幅改进;2)为了自由构建引人入胜的用户体验,需要对底层模型拥有控制权。
于是,他们正式决定 **自研视频模型**
在过去的 13 个月里,他们训练了 3 个不同的视频模型:
**第一个 Hotshot-XL** 耗时 3 个月开发,每秒生成 8 帧视频,开源后至今每月约有 2 万名新的开发者和艺术家使用;
**第二个 Hotshot Act-One** 耗时 5 个月开发,生成 3 秒 8fps 的视频,基于 2 亿个公开视频训练而成;
**第三个 Hotshot** 耗时 4 个月开发,生成最长 10 秒的 720p 视频,限文生视频。
按照 Hotshot 发布时的说法,在各种提示评估中, **70% 的情况下** 用户更喜欢 Hotshot 的结果,而不是其他开源文生视频模型。
![](https://img.36krcdn.com/hsossms/20250318/v2_93594c5e6d1e42f5b83f7081efae1a96@5888275_oswg482085oswg1080oswg949_img_000?x-oss-process=image/format,jpg/interlace,1)
另外,从 CEO Aakash Sastry 公布的消息来看,Hotshot 的投资者包括 Stripe 前高管 Lachy Groom、Reddit 联合创始人 Alexis Ohanian 以及 SV Angel 在内的风险投资机构。
至于具体融资次数和规模,Hotshot 尚未公开披露,而且 **也不清楚整个 Hotshot 团队是否会集体加入 xAI**
![](https://img.36krcdn.com/hsossms/20250318/v2_8de707ee0a9349b4a4735bde28d6fd5b@5888275_oswg1061216oswg1080oswg1873_img_000?x-oss-process=image/format,jpg/interlace,1)
## **马斯克想开发自己的视频生成模型?**
事实上,早在今年 1 月,马斯克在一场直播活动中就透露了 **自研视频生成模型** 的想法:
(指路原推文视频 15:02
![](https://img.36krcdn.com/hsossms/20250318/v2_33b55972530e4a9aa536ecdb365a0abb@5888275_oswg991373oswg1080oswg1226_img_000?x-oss-process=image/format,jpg/interlace,1)
对于自家的 Grok 模型一直没有视频生成功能这事儿,老马本人和用户都不太满意。
而要解决这个问题,通常来说有两条路可走:
**要么直接接入其他家模型,要么自研。**
从 Grok 之前的一些倾向来看,他们主要选择第一种方案,比如其 Grok-2 的文生图功能,就是通过与此前备受瞩目的 Flux 深度融合实现。
然而现在,老马明显转向了。
为了和 OpenAI、谷歌等展开长期竞争,xAI 最终也是走上了自研之路,开始通过收购进一步布局。
不过不管怎样,对于我们普通用户来说,期待 Grok 的视频生成功能就完事了!
![](https://img.36krcdn.com/hsossms/20250318/v2_51e8451b0c0a46bb974e9faae9555b43@5888275_oswg161844oswg1080oswg503_img_000?x-oss-process=image/format,jpg/interlace,1)
参考链接:
- [1]https://x.com/aakashsastry/status/1901668601364689338
- [2]https://hotshot.co/
> 本文来自微信公众号 [“量子位”](https://mp.weixin.qq.com/s/DgYseRVqfOy8_HvZC5aFbg)
@@ -0,0 +1,17 @@
# MiniMax Audio 发布 Speech-02 模型,单次输入支持 20 万字符
MiniMax Audio  正式发布了全新的 Speech-02 系列语音模型,支持将任何文件或 URL 转换为逼真的音频。用户只需一次输入,即可轻松创建有声读物和播客,最多可输入 20 万个字符,支持 30 多种语言的音频生成,效果自然流畅。
![](https://static.oschina.net/uploads/space/2025/0402/182343_cVnE_2720166.png)
Speech-02 模型支持 30 多种语音,一次性可以输入 20 万字符。为用户带来更真实、更流畅、更便捷的音频体验。
![](https://static.oschina.net/uploads/space/2025/0402/182628_p3an_2720166.png)
据官方介绍,该系列在多语言覆盖能力上实现了显著提升,能够更准确、更地道地呈现多种语言的发音。Speech-02 的人声相似度高达 99%,这意味着合成的语音听起来更加自然、贴近真人。
此外,该模型还实现了零节奏故障,彻底解决了音频播放过程中可能出现的卡顿和节奏不稳问题,保证了听感的连贯性和流畅性。
使用地址: [https://www.minimax.io/audio](https://www.oschina.net/action/GoToLink?url=https%3A%2F%2Fwww.minimax.io%2Faudio)
> 来源:oschina.net
@@ -0,0 +1,39 @@
# OpenAI 上线“OpenAI 学院”,已提供数十小时免费 AI 学习资源
2025 年 04 月 02 日 11:03 [TechWeb](https://www.techweb.com.cn/it/2025-04-02/2959052.shtml)
【TechWeb】4 月 2 日消息,OpenAI 刚刚悄悄上线了 OpenAI 学院(OpenAI Academy)。
OpenAI 介绍称,世界各地的人们都在采用生成式人工智能来解决复杂问题,并提高创造力、生产力和学习能力。OpenAI Academy 将通过研讨会、讨论和数字内容帮助他们利用人工智能的变革力量,从基础人工智能素养到工程师的高级集成。通过在线和面对面活动的结合,学院培养了一个充满活力的协作社区,各种背景的参与者都可以获得可操作的见解,并推动各自领域的创新。
目前,OpenAI 学院页面上已经提供了数十小时的免费内容供用户使用,还在持续更新中。
同时,OpenAI 还提供了常见问题解答:
为什么创建 OpenAI 学院?
我们成立了 OpenAI 学院,使获取人工智能知识的途径民主化。我们的目标是让来自不同背景的个人能够自信地将人工智能融入他们的生活、工作和社区。
谁可以加入 OpenAI 学院?
OpenAI 学院对所有人开放,免费注册以确保广泛的访问。一些专门的社区团体可能需要邀请或推荐。
OpenAI 学院是否提供证书或认证?
现在不行。我们的重点是为每个人提供可访问、实用的学习体验。
OpenAI Academy 支持哪些语言?
目前,OpenAI Academy 的编程语言为英语,并计划很快扩展到其他语言。
我在哪里可以了解当地的活动?
加入 OpenAI Academy 后,导航到左侧菜单栏中的“活动”部分,探索即将到来的虚拟和面对面聚会。
当地活动将在哪里举行?
OpenAI Academy 正在美国启动其项目,并计划很快在全球范围内扩展。
关键词 : AI、人工智能
> 来源:新浪科技
@@ -0,0 +1,21 @@
# xAI 再更新,各项能力卓越
xAI 首席执行官 (CEO) 埃隆·马斯克自信地表示"世界上最聪明的人工智能 (AI)",推出的"Grok"的增长势头非常可怕。这是因为,自今年 2 月推出推论型新机型"grock3"仅一个月内,全球日用户就突破了 1600 万人,确保了与中国代表性 AI deep seek 相同水平的流量。
马斯克本人亲自出面宣传格洛克,再加上格洛克开发公司 xAI 最近合并 X(X·旧推特),期待产生协同效应,因此格洛克的市场渗透速度今后将进一步加快。
2 日,据信息通信 (IT) 业界和 TechCrunch 等外媒透露,以今年 3 月为准,全球 Grock 服务用户平均每天达 1650 万人。自今年 2 月搭载最新机型"Grock3"宣布全面免费后,仅一个月时间流量就激增了 800% 以上。
结果,Grock 用户上升到了 Deepsic(1650 万人) 的水平,在全世界使用最多的 AI 服务排名中,继开放 AI"Chat GPT"(1.26 亿人) 之后,位居第二。与同期谷歌"jeminai"用户日均 1090 万人、Anthropic"cloud"用户 330 万人相比,这是惊人的上升趋势。
Groc 是马斯克于 2023 年 7 月设立的人工智能公司 xAI 开发的生成型 AI。X 拥有的庞大数据和特斯拉的 AI 人才等马斯克所有的公司引进资源后制造的,因此短时间内迅速确保了 AI 力量。特别是利用全球代表性社会关系网服务 (SNS)X 的数据,对用户提问,可以以 SNS 上的信息为基础,告知舆论趋势是其优点。
今年 2 月公开的推论型模型"Grock3"对 10 万个 NVIDIA 的最新图像处理装置 (GPU)H100 进行了 2 亿小时的训练,具备了比之前模型"Grock2"高出 10 倍的运算能力。
当时 xAI 表示,Grock3 在数学、科学等部分领域的基准测试中,取得了比 OpenAI 的 GPT 4o、Ansropic 的 Cloud 3.5 Sonnet、Deepic 的 V3 更高的成果。Grock3 上市当时,xAI 只向 X 付费订阅者提供服务,但马斯克在上市 3 天后表示"在我们的服务器融化之前,将把世界上最聪明的 AI Grock3 免费化",允许任何人都可以不受限制地使用。
除了卓越的能力外,Grock 在短期内聚集人气的秘诀是"没有过滤的 AI" 根据平时强调表现自由的马斯克倾向,搭载了"超越线模式 (Unhinged Mode)"的格洛克毫不犹豫地描写其他生成型 AI 回避的敏感话题和人物。根据提问,像人一样骂人,被要求画美国总统唐纳德特朗普和马斯克拥抱的画时,立即制造出与实际照片难以区分的形象。
有分析认为,最近马斯克将社交媒体 X 出售给 xAI,结果也为 xAI 的成长提供了动力。此次交易的目的虽然有马斯克将 X 的负债负担转嫁给 xAI 的实际利益原因,但业界尤其关注 xAI 实际上可以不受限制地利用 X 拥有的庞大数据这一点。但是在快速成长的过程中,接连出现杂音也备受关注。最近,格洛克曾卷入审查特朗普总统和马斯克的负面言论的争议。
> 来源:韩国先驱报
@@ -0,0 +1,121 @@
# 一张照片生成连贯全片!Runway Gen-4 深夜发布,终于捅破 AI 视频多年的天花板
> 编者按:DeepSeek R1 面世之后,似乎整个 AI 行业再次被推入了一个前所未有的加速轨道。
「深度思考」成为模型的标配,Manus 这样会干活的 Agent   也开始介入我们的工作流,GPT-4o 的生图功能让每个人都能作出媲美专业的的风格。
今天凌晨,Runway 的新版本 Gen-4 又试图解决 AI 视频的一个关键难题,让 AI 视频更靠近电影级。
这一切都只发生在短短的 2 个多月内,很难想象今年 AI 会发展到什么程度,或许今年将会是 GPT-3.5 后真正的 AI 爆发年。
这是一个导演酝酿了十余年却始终未能用 AI 实现的故事。
在此之前,要用 AI 打造这部视频,需攻克一系列难题:角色形象的连贯性、情感表达的细腻度、物理效果的真实感、叙事的连续性,以及整体风格的统一性。
直到老牌 AI 视频生成巨头最新模型 Runway Gen-4 的到来,这款号称全球首款实现「世界一致性」的模型横空出世,意味着用户可以创建具有一致环境、物体、位置和角色的连贯世界,才让导演的梦想照进现实。
现在 Runway Gen-4 已向所有付费用户和企业客户开放。Runway 团队还透露,用于角色、位置和物体一致性的场景参考功能即将推出。
官网显示,Gen-4 的核心亮点包括:
世界一致性:能在多个场景中保持人物、场景和物体的一致性,无需额外精调。
参考图能力:仅凭一张参考图,即可在不同光线和场景中生成一致的角色或物体。
场景覆盖:从任意角度重建和捕捉场景,只需提供参考图和描述。
物理效果:模拟真实世界物理规律,呈现逼真的光照、阴影和动态效果。
视频质量:具备极强的提示理解能力和世界构建能力。
生成式视觉特效:提供快速、可控的视频特效,可与实拍和传统特效无缝融合。
![](https://img.36krcdn.com/hsossms/20250401/v2_8a85cbb9738048a0b5c10c171dc28a34@1200352198_img_000?x-oss-process=image/format,jpg/interlace,1)
Runway 联合创始人兼 CEO Cristóbal Valenzuela Barrera 在 X 平台发文称:
**我们新一代用于媒体生成与世界一致性的 AI 模型系列来了。欢迎 Gen-4 的到来。这个模型非常特别,我们从零开始完全为一个目标打造它:讲述精彩的故事。**
如开篇所说,Gen-4 的最大亮点在于实现了「世界一致性」——能够在多个场景中精准生成人物、场景和物体,并保持其视觉特征的一致性。
用户只需设定好整体风格和视觉效果,模型就能在保持每一帧独特风格、氛围和电影质感的同时,维持连贯的世界环境。而这一切无需精调或额外训练。
通过结合视觉参考和文字指令,Gen-4 能够生成风格、主题、场景高度一致的图像和视频,大幅简化了专业内容创作的流程,用户现在可以制作 5 秒和 10 秒的 720p 高清视频片段。
为了展现 Gen-4 的潜力,Runway 团队精心打造了一系列短片。
开场镜头设定了《The Lonely Little Flame》整个短片的基调、感觉和氛围。在其中一个场景中,有一只臭鼬在寻找什么东西。借助 Gen 4,创作者可以直接指导主体穿越场景。
他们为臭鼬设定了两个关键标记点,精确控制其移动路径——先移动到场景一侧,再折返回来,成功营造出「寻找」的动态感。
![](https://img.36krcdn.com/hsossms/20250401/v2_273e08d729084c0eb6779a5679535e17@1200352198_img_000?x-oss-process=image/format,jpg/interlace,1)
「就像所有伟大的动画一样,你可以在角色设计和场景移动中看到丰富的表现力,」团队成员解释道,「同一角色在不同场景、不同光照条件下保持一致性,同时能够表现不同的情绪和动作。」
为了制作这个片段,Runway 团队的一名成员在几个小时内生成了几百个单独的视频片段,然后将它们编辑成一个连贯的片段。音效是另外添加的。
在接受彭博社的采访时,Runway 联合创始人兼 CEO Cristóbal Valenzuela Barrera 表示,整个过程花了几天时间。
传统的视觉特效制作往往需要耗费大量时间进行建模、渲染和后期调整,Runway Gen-4 引入生成式视觉特效(GVFX)技术,能够通过 AI 驱动的生成能力,大幅缩短了这一过程。
GVFX 的技术核心在于其高效性和适应性。
用户只需提供简单的视觉参考或文字描述,例如角色的动作、场景的氛围或特定的特效需求,Gen-4 便能在短时间内生成高质量的视频片段。
![](https://img.36krcdn.com/hsossms/20250401/v2_6476ad9e951740af919795d13261b325@1200352198_img_000?x-oss-process=image/format,jpg/interlace,1)
一个具体的应用案例是 Runway 团队在演示中展示的「木制玩具」场景。
Runway 团队成员拿出一个木制玩具,用手机拍摄照片后导入 Gen-4 作为参考,同时上传了此前拍摄的纽约街景作为背景。通过一句简单描述:「木制玩具靠在纽约街道的人行道旁」,Gen-4 迅速生成了四张图像。
挑选其中一张,挑选一张,并为画面添加了行人从玩具前走过的动画效果。「你可以将这个玩具放在任何地方——山脉中、沙漠里,基本上你想做什么都可以。」
![](https://img.36krcdn.com/hsossms/20250401/v2_720bed44df7a4488aa324527b86d0492@1200352198_img_000?x-oss-process=image/format,jpg/interlace,1)
《牛群》是一部扣人心弦短片,讲述了一名年轻男子在夜晚被追赶穿越一片牛群的故事。仅凭 Gen-4 和几张简单的图像参考,Runway 团队构建了角色的每个镜头以及雾气弥漫的牛群场景。
与此同时,Runway 还运用了 Act-One 技术,进一步增强了画面的表现力与连贯性。
在这部短片中,制作团队特别强调了两大技术亮点:在牛的眼睛中可以看到人物的倒影,以及火焰在草地上蔓延的逼真物理效果。
这个案例展现了 Gen-4 如何利用一致的角色、物体和环境贯穿多个场景。创作者可以从一个精心设计的角色入手,构建氛围与外观,再生成全新图像,并为不同镜头和视角提供多样变化。
![](https://img.36krcdn.com/hsossms/20250401/v2_206d981c7ae7440db025d19ac0345f61@1200352198_img_000?x-oss-process=image/format,jpg/interlace,1)
Gen-4 对现实物理世界的理解达到了新高度。
《纽约》短片将纽约不同区域的真实照片结合动物的真实照片,清晰地展示了 Gen-4 对物理、动物重量、它们如何在表面移动以及与环境互动方式的理解。
![](https://img.36krcdn.com/hsossms/20250401/v2_33f95212998c4257a723f076dcbcbeaa@1200352198_img_000?x-oss-process=image/format,jpg/interlace,1)
复杂的创意作品往往从一个简单的构想开始。
视频创作的过程也能像滚雪球一样逐渐壮大,Runway 团队以一个音乐视频为例,最初只是一张普普通通的猴子图像,最终发展成一部内容丰富、节奏紧凑的完整音乐视频。
Runway CEO 去年曾做出过一个重要论断,「**AI 正在成为像电力或互联网一样的基础设施。在今天称自己为 AI 公司,就像在 2024 年称自己为互联网公司一样。这没有意义,因为人人都在用 —— 每家公司都使用互联网;每家公司都将使用 AI。**」
正如电力革命不是关于发电厂,而是关于电灯、电视和电冰箱如何改变生活。在他看来,Runway 不是一家 AI 公司,而是一家媒体和娱乐公司。
Runway 此前已为美剧《大卫王朝》(House of David)生成影视场景,以及为 Puma 制作广告等。
影视行业一直是 AI 视频生成工具攻坚的重要一环。去年 9 月,Runway 与著名电影制作公司狮门影业(Lionsgate)达成合作,这是首个大型电影公司与 AI 视频模型供应商直接签订的协议。
Runway 将利用狮门影业超过两万部影视作品的资料库,包括《饥饿游戏》等知名影片,构建一个定制的 AI 视频制作和编辑模型。该模型将应用于故事板制作、背景创建和特效制作。
一支好的钢笔不会让作家思考墨水流动的物理原理,优秀的 AI 创作工具也不应让导演分心于算法细节。
![](https://img.36krcdn.com/hsossms/20250401/v2_ad6c4261e25e4d38957083cf183b35c6@1200352198_oswg234510oswg888oswg518_img_000?x-oss-process=image/format,jpg/interlace,1)
Valenzuela 也指出,公司在训练其模型时,更多地参考了电影行业的术语,而不是过去的方式,目的是让使用该模型的电影制作人在编写提示时能够更加自然。
我们后续将带来 Gen-4 具体的实测,但无论此次实际效果如何,一个不争的趋势是,生成 AI 视频生成工具正在颠覆我们所知的电影和电视行业。
梦工场的联合创始人杰弗里·卡森伯格甚至表示,AI 可能会消灭动画电影 90% 的岗位。
传统动画制作流程中的许多环节——中间帧绘制、背景设计、着色润色——可能被 AI 大幅简化或取代。但与此同时,新的专业岗位正在涌现,AI 提示工程师、视觉开发总监、AI-人类协作编导等角色未来也将出现在制作名单中。
能够渲染视频,实现基础生成功能——这是当前 AI 视频技术的普遍水平,而在 Runway Gen-4 此次的宣传中,**则强调 AI 能够创作真实故事,制作出既美观又有娱乐性,能够引起情感共鸣的内容。**
或许只有当工具变得足够简单,创作者才能真正关注重要的事情——讲述触动人心的故事。
> 本文来自微信公众号[“APPSO”](https://mp.weixin.qq.com/s/gS-7ZqtLWSiG5zQnTrYowA)
@@ -0,0 +1,21 @@
# 亚马逊推出 Nova Act:可操控网页浏览器的 AI 智能体
4 月 1 日消息,亚马逊于当地时间周一正式发布了其通用人工智能智能体(AI agent)——Nova Act。该智能体具备操控网络浏览器并自主执行简单网络任务的能力。与此同时,亚马逊还推出了配套的 Nova Act 软件开发工具包(SDK),旨在帮助开发者利用 Nova Act 构建智能体应用原型。
据 IT 之家了解,Nova Act 由亚马逊新近在旧金山成立的 AGI(通用人工智能)实验室研发,该技术未来也将为备受期待的生成式 AI 增强版语音助手 Alexa+ 提供关键功能支持。不过,亚马逊方面表示,今日起开放的版本为“研究预览版”,功能尚待完善。
开发者可以通过新设立的专属网站 nova.amazon.com 获取 Nova Act 工具包,该网站同时也是亚马逊展示其旗下各类 Nova 基础模型的平台。
Nova Act 的推出标志着亚马逊正式加入 AI 智能体技术的竞争行列,意在凭借自研的通用 AI 智能体技术,与 OpenAI 的 Operator 和 Anthropic 的 Computer Use 等产品展开竞争。当前,多家领先科技公司普遍认为,能够代替用户浏览网页、执行任务的 AI 智能体将极大提升现有 AI 聊天机器人的实用性。尽管亚马逊并非首家开发此类技术的公司,但凭借其庞大的 Alexa 用户基础,Nova Act 未来可能拥有最广泛的应用潜力。
亚马逊介绍称,开发者使用 Nova Act SDK,将能够为用户自动化处理一些基础性网络操作,例如从餐饮品牌 Sweetgreen 订购沙拉或是在线上预订餐厅晚餐。该工具包提供了一系列工具,使 AI 智能体能够浏览网页、填写表单、在日历上选择日期等。
在性能方面,亚马逊声称,在公司内部的多项测试中,Nova Act 的表现优于来自 OpenAI 和 Anthropic 的同类智能体。以衡量 AI 智能体与屏幕文本交互能力的 ScreenSpot Web Text 测试为例,Nova Act 得分高达 94%,超过了 OpenAI 的 CUA88%)和 Anthropic 的 Claude 3.7 Sonnet(90%)。然而值得注意的是,亚马逊并未公布 Nova Act 在如 WebVoyager 等行业更常用的智能体评估基准上的测试结果。
Nova Act 是亚马逊上述 AGI 实验室对外发布的首个公开产品。该实验室由前 OpenAI 研究员 David Luan 和 Pieter Abbeel 共同领导。这两位专家在去年被亚马逊聘用以主导其 AI 智能体研发工作之前,分别创立了 AI 初创公司 Adept 和 Covariant。
对于一个以 AGI 为目标的实验室为何会开发订购沙拉的 AI 智能体,Luan 在接受 TechCrunch 采访时解释道,他将智能体视为构建超智能 AI 系统的关键一步。他将 AGI 定义为“一个能够帮助你在计算机上完成人类所能做的任何事情的 AI 系统”。Luan 还表示,其团队设计的 Nova Act SDK 旨在可靠地自动化执行简短、简单的任务,并为开发者提供了精确定义何时需要人类介入智能体工作流程的工具。他希望借此帮助开发者创建更可靠的智能体应用,即使这些应用不一定是完全自主运行的。
目前,来自 OpenAI、谷歌和 Anthropic 等公司的早期 AI 智能体普遍面临跨不同领域应用时可靠性不足的重大挑战。根据 TechCrunch 等媒体的测试,这些系统往往运行缓慢,难以长时间独立工作,且容易犯下人类通常不会犯的错误。亚马逊是否已经找到了克服这些难题的有效方法,还是其 Nova Act 智能体也将受困于同样的缺陷,市场将拭目以待。
> 【来源:IT 之家】
@@ -0,0 +1,43 @@
# 售价超 7000 元,Meta 想用眼镜取代 iPhone
据彭博社 4 月 2 日报道,Meta 正在加紧研发其高端智能眼镜,代号 Hypernova,计划在其中加入手势控制以及显示屏。
这是 Meta 首款带屏幕的眼镜,采取单眼面板,位于右镜片的右下象限,用户可以在右眼前方看到显示照片和应用程序的屏幕,向下看可以看得更清晰。
Meta 计划最早在今年年底推出此款眼镜,知情人士透露,Meta 员工估计此款智能眼镜的售价将因内置屏幕而大幅上涨,价格将超过 1000 美元(约合人民币 7272 元),最高可达 1300 至 1400 美元(约合人民币 10180 元)。最终价格可能要等到发布前才能确定。
知情人士称,该产品是成为 iPhone 和其他移动设备替代品的关键一步。
彭博社通过查看其 Hypernova 眼镜的原型版本报道了出此款眼镜上市时的性能:
启动时,界面显示 Meta 及合作伙伴(如高通)的标识。
界面上,主屏幕由水平排列的圆形图标组成,类似 Apple 设备或 Meta Quest 混合现实耳机上的应用程序底座。
![](https://n.sinaimg.cn/sinakd20250402s/267/w640h427/20250402/a269-23c4ca011ecbf33aae0d0d654bf4699f.png)
Meta Orion 眼镜原型机
功能上,Hypernova 支持拍摄照片视频并查看、访问地图以及接收手机应用的通知,如 Meta 的 Messenger 和 WhatsApp。其他功能还有 AI 语音助手、手机配对通话和播放音乐,不过,该眼镜仍将高度依赖于 Meta View 手机应用程序。
操作上,用户可以通过镜腿上的触摸控制滑动浏览应用程序或照片,点击打开内容。
此款眼镜运行定制版的安卓操作系统,但没有内置应用商店。
此外,彭博社报道,Meta 已经着手研发该产品的第二代产品,代号为 Hypernova 2。将加入拥有两块屏幕,可在双眼显示信息的双目显示系统。知情人士称,该设备目前计划于 2027 年推出。
有分析认为,此款带屏幕的眼镜将成为 Meta 实现其增强现实眼镜愿景的又一基石——眼镜能够在现实世界上叠加虚拟世界。Meta 发言人拒绝置评。
Hypernova 的后续项目定于 2027 年启动,与 Meta 所研究的真正的增强现实眼镜有些相似,后者可将交互式图像、视频和信息叠加于现实世界之上。其技术相比 Hypernova 简单的平视显示器相比,更加先进、昂贵。
彭博社还报道了 Meta 的一系列计划,包括计划首次推出代号为 Ceres 的眼镜配套神经腕带,让佩戴者能够通过手势控制眼镜。以及一款名为 Heres 的新手机壳,其形似三棱柱,可折叠。Meta 也将对眼镜摄像头进行升级,期望与 iPhone13 摄像头相媲美。
彭博社透露,除了 Hypernova 眼镜,Meta 还在完成一款针对运动用途进行优化的新型无显示屏智能眼镜 Supernova 2 的研发,Meta 已在公共环境中进行测试。此外,Meta 还在开发一款名为 Artemis 的 AR 眼镜,可能为 2024 年 9 月发布的“猎户座”(Orion)AR 眼镜原型的后续版本,预计于 2027 年面世。
Meta 于 2023 年九月发布了第二代入门级智能眼镜 Meta Ray-Ban,起价 299 美元(约合人民币 2174 元),供不应求,Meta 将继续销售此款眼镜并寄希望于其推动用户购买 Meta 旗下更高端的眼镜型号。
本文系观察者网独家稿件,未经授权,不得转载。
![](https://n.sinaimg.cn/finance/cece9e13/20240627/655959900_20240627.png)
> 来源:新浪财经 APP,海量资讯、精准解读,尽在新浪财经 APP
@@ -0,0 +1,27 @@
# 智谱发布 AutoGLM 沉思:首个免费、具备深度研究和操作能力的 AI Agent
[IT 之家](https://www.ithome.com/) 3 月 31 日消息,IT 之家从智谱官方微信公众号获悉,今天智谱在中关村论坛上正式发布 AutoGLM 沉思。官方称,这一全新智能体不仅具备深度研究能力(Deep Research),还能实现实际操作(Operator),真正推动 AI Agent 进入“边想边干”的阶段。
![](https://img.ithome.com/newsuploadfiles/2025/3/da47f48c-cd12-436b-a2dd-739b2061f7d7.png?x-bce-process=image/format,f_avif)
AutoGLM 沉思的技术演进路径包括:GLM-4 基座模型 → GLM-Z1 推理模型 → GLM-Z1-Rumination 沉思模型 → AutoGLM 模型。其中核心链路的模型和技术,将于 4 月 14 日正式开源。
智谱介绍,全新的 AutoGLM 沉思模型是全球首个集深度研究与实际操作能力于一体的 Agent。AutoGLM 沉思体现了智谱对 AI Agent 的核心理解:让机器不仅能够思考,还能主动行动,实现“边想边干”的目标。
这一能力的实现依赖于三个关键特性:
- 深度思考:能够模拟人类在面对复杂问题时的推理与决策过程。
- 感知世界:能够像人一样获取并理解环境信息。
- 工具使用:能够像人一样调用和操作工具,完成复杂任务。
AutoGLM 沉思融合了以上三大能力。与 OpenAI 的 Deep Research 不同,它不仅能深入研究,还能真正执行任务,**推动 AI Agent 从单纯的思考者,进化为能交付结果的智能执行者。**
![图片](https://img.ithome.com/newsuploadfiles/2025/3/37d640f5-584b-4e0c-af50-782762a54fa1.png?x-bce-process=image/format,f_avif)
AutoGLM 沉思背后的模型,是智谱全新推出的 Agent 大脑 —— 沉思模型,即通过强化学习,让模型学会自我批评、反思、甚至沉思,实现长程推理和任务执行。
目前,AutoGLM 沉思在**智谱清言 PC 客户端**上线,用户可免费体验其研究能力和操作能力。此次发布的为  **preview 版本,核心支持 research 场景**;在未来两周,官方将进一步扩展更多**智能体执行能力**。包括推出“虚拟机”版本,进一步增强 AI Agent 的实际落地能力。
沉思功能,目前已经正式上线**智谱清言网页端、PC 端和手机 App**,免费、不限量地开放。官方称,这也是国内首个正式开放的 Deep Research 功能。
> 来源:IT 之家
@@ -0,0 +1,31 @@
# 有史以来最大力度!苹果进军医疗,计划明年推出 AI 医生 - 华尔街见闻
“Mulberry 计划”是由 AI 驱动,能够在一定程度上模拟真实医生的功能。AI 基于从 iPhone、Apple Watch、耳机或第三方设备收集的健康数据,来提供个性化的健康改善建议。苹果还计划引入外部医学专家并制作“提醒类”视频,并且食品追踪功能或将大升级,抢占营养市场。
苹果健康战略大转向,AI 医生即将上岗!
苹果正在准备其有史以来最大规模的医疗健康战略部署,代号为“Mulberry 计划”的全新健康应用及 AI 医生服务计划最早于明年春季或夏季随 iOS 19.4 一并推出,有望兑现库克关于"苹果对社会最大贡献将在医疗领域"的宏伟承诺。
## 突破现有限制:比"手腕上的实验室"走得更远
尽管 Apple Watch 一直被宣传为"手腕上的医疗实验室",但其健康功能实际上受到多项限制。无创血糖监测项目虽已取得关键进展但仍需多年才能实现,血氧传感器因专利纠纷被移除,高血压监测功能也持续面临开发障碍。
**面对这些挑战,苹果健康团队转向了一个可能更快见效的战略:由 AI 驱动的健康服务,能够在一定程度上模拟真实医生的功能。**
**这项服务的核心理念是:**升级版健康应用将继续从 iPhone、Apple Watch、耳机或第三方设备收集数据,然后由 AI 基于这些信息提供个性化的健康改善建议。根据彭博社报道,苹果目前正利用其内部医师的数据来训练 AI 代理系统。
该计划最初被称为"Project Quartz",如今已发展成为一个跨部门项目,整合了苹果的人工智能团队和医疗专家资源。
## 还计划引入外部医学专家 制作“提醒类”视频
苹果还计划引入外部医学专家,包括睡眠、营养、物理治疗、心理健康和心脏病学方面的专家,制作相关视频。这些内容将向用户解释某些健康状况,并提供改善生活方式的建议。例如,如果健康应用检测到用户的心率趋势不佳,可能会弹出一段关于心脏病风险的视频。
苹果正在美国加州奥克兰附近建立一处设施,供医生拍摄这些健康视频。此外,苹果还在寻找一位知名医生来担任该新服务的主持人,内部暂定名为“Health+”。
## 抢占营养市场:直面 MyFitnessPal 与 Noom
**食品追踪功能将成为升级版应用的重点功能,这是苹果此前几乎未涉足的领域。**虽然当前的健康应用允许用户输入碳水化合物和咖啡因等数据,但新版本将大幅扩展这些功能,直接挑战 MyFitnessPal 等服务,并在某种程度上与 Noom 等体重管理应用竞争。
更令人惊喜的是,苹果还在开发利用设备摄像头的功能,例如 iPhone 后置摄像头。这一设计旨在让 AI 代理研究用户的锻炼情况并提供改进技巧的建议,未来可能与现有的 Fitness+ 平台整合。
> 来源:36kr
@@ -0,0 +1,23 @@
# 百度飞桨框架 3.0 正式版发布
2025-04-02 12:54:00
4 月 1 日,深度学习平台飞桨宣布新一代飞桨框架 3.0 正式发布,以“动静统一自动并行”等五大核心技术创新为大模型训推提速。
作为大模型时代的 Infra“基础设施”,深度学习框架的重要性愈发凸显,大模型训练、推理等任务都离不开深度学习框架的优化与支撑。
飞桨框架 3.0 从设计理念上实现了从底层硬件适配到顶层开发体验的全面进化,在训练效率、性能、兼容性等关键指标上建立了新标杆。其中,“动静统一自动并行”、“大模型训推一体“、“科学计算高阶微分”、“神经网络编译器”、“异构多芯适配”这五大技术新特性,系统性解决了当前大模型产业面临的训练成本高、推理效率低、硬件适配难等核心痛点。
飞桨提出的"动静统一自动并行"技术,大幅降低大模型开发训练成本,让算法创新回归核心价值创造;同时,"训推一体"设计理念打破了训练与推理的割裂状态,通过全方位深度优化,飞桨框架 3.0 能够支持众多开源大模型进行高性能推理,并在 DeepSeek V3/R1 上取得了突出的性能表现。
目前,飞桨框架 3.0 支持文心 4.5、文心 X1 等多款主流大模型,DeepSeek-R1 满血版单机部署吞吐提升一倍。通过技术算法创新,飞桨让低时延、高吞吐、低算力成本的推理服务成为了现实。
同时,在科学智能领域,飞桨框架 3.0 锚定科学前沿探索需要,提升微分方程求解速度。通过高阶自动微分和神经网络编译器技术,加速微分方程求解,速度比 PyTorch 开启编译器优化后的 2.6 版本平均快 115%。飞桨还对 DeepXDE、Modulus 等主流开源科学计算工具进行了广泛适配,并成为 DeepXDE 的默认推荐后端。其展现的科学智能潜力在气象预测、生命科学、航空航天等领域具有广泛的应用价值。
此外,在运算速度上,借助创新研制的神经网络编译器 CINN,实现性能的显著提升,部分算子执行速度提升 4 倍,模型端到端训练速度提升 27.4%。
在硬件适配方面,飞桨框架 3.0 推出了多芯片统一适配方案,构建"一次开发,全栈部署"的生态体系。目前已支持 60 余款主流芯片,覆盖训练集群、自动驾驶、智能终端等场景,开发者只需编写一份代码即可实现跨芯片无缝迁移,硬件适配成本直降 80%。
截至 2024 年 10 月,飞桨文心生态已凝聚 1808 万开发者,服务了 43 万家企事业单位,创建了 101 万个模型。
> 来源:新华网
@@ -0,0 +1,36 @@
# 腾讯元宝识图放大招!一次传 10 张图,朋友圈文案、电子书金句全搞定!
小伙伴们,好消息!腾讯元宝最近更新了,这次更新简直是生产力神器!最大的亮点就是它的识图功能,以前只能一张一张上传,现在直接支持一次性上传 10 张图片!无论是混元还是 [DeepSeek](https://www.aitop100.cn/search/?text=DeepSeek) 模型,都能把这些图片连起来看,彻底理解你的意思,然后集中回答你的问题。这功能简直是开了挂,充分展现了元宝双模型的强大实力!
![腾讯元宝](https://aitop100app-1251510006.cos.ap-shanghai.myqcloud.com/banner/4782ce21-09f0-4b4f-b016-965e634cf611.png?imageMogr2/format/webp)
## 这功能到底有多实用?
说实话,这功能简直不要太实用!想象一下这些场景:
- 电子书截图:想提炼金句,写读后感?直接把截图扔给元宝,它帮你搞定!
- 朋友圈九宫格:每次发朋友圈都要想半天文案?上传 9 张图,元宝快速生成高情商文案!
- 板书/讲义照片:上课认真记笔记,课后整理太麻烦?元宝帮你迅速整理出结构!
- 草图变网页:灵感迸发画了一堆草图,想快速变成 demo 网页?元宝也有可能帮你实现!
总之,你只要一次性上传图片,然后告诉元宝你的需求,后续的工作就交给它处理吧!简直是懒人福音!
## 朋友圈文案创作:小试牛刀
举个例子,假设你要发朋友圈,上传了 9 张图片,每张图片都有主题和一些文字信息。元宝会先分析图片的内容和文字,然后根据这些信息,创作出符合你心意的文案。是不是很神奇?
![腾讯元宝](https://aitop100app-1251510006.cos.ap-shanghai.myqcloud.com/banner/2f75c111-1b9f-4cc0-9e5c-eb669758bb66.png?imageMogr2/format/webp)
## 多平台全面上线,赶紧更新!
更让人激动的是, [腾讯元宝](https://www.aitop100.cn/tools/detail/1899.html) 的多图上传功能已经在多个平台全面上线了!
- 手机版:(2.11.0 以上版本)上传时可以多选,最多上传十张。
- 电脑版:(1.8.0 以上版本)支持拖拽上传和快捷键截图,简直不要太方便!
- 网页版:同样全面支持多图上传!
还在等什么?赶紧更新你的腾讯元宝,体验一下这强大的识图功能吧!让你效率翻倍,从此告别重复劳动!
想了解更多 AI 创作软件工具请关注 [AI](https://www.aitop100.cn/search/?text=AI) [人工智能](https://www.aitop100.cn/search/?text=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD) 网站-- [AITOP100](https://www.aitop100.cn/search/?text=AITOP100) 平台-- [AI 工具集](https://www.aitop100.cn/tools/index.html)
> 文章来源:AI TOP100
@@ -0,0 +1,29 @@
# 阿里秘密研发新模型将发布,影响力指标成最重要考核
![](https://n.sinaimg.cn/spider20250402/233/w660h373/20250402/a01e-a4802005500d2ed9f7a06ea175bd3084.jpg)
出品|虎嗅商业消费组
作者|苗正卿
题图|[视觉中国](https://finance.sina.com.cn/realstock/company/sz000681/nc.shtml)(20.780, \-0.40, \-1.89%)
虎嗅独家获悉,阿里即将在 2025 年 4 月第二周发布新模型 Qwen3,这将是阿里在 2025 年上半年最重要的模型产品,距离 2024 年 9 月阿里在云栖大会上发布 Qwen2.5 过去了大约七个月的时间。
据虎嗅独家了解,在 2024 年发布 Qwen2.5 后,阿里云内部的基础模型团队已经开始推动 Qwen3 相关项目。但 2025 年初 DeepSeek 的火爆,改变了团队的部分思路与重心。“2024 年四季度,圈内已经意识到模型的推理能力很重要,但还不能说是最重要的方向,DeepSeek 火爆后,推理能力已经成为绕不开的关键能力。”知情人士告诉虎嗅,DeepSeek-R1 发布后,阿里云基础模型团队把策略中心进一步向模型的推理能力倾斜。
值得注意的是,在 2024 年下半年,阿里云基础模型团队对标的竞品模型主要是 OpenAI 的 o1,而在 DeepSeek-R1 发布后,DeepSeek-R1 已经成为了另一个主要对标模型。
虎嗅独家获悉,在阿里内部,基础模型团队最重要的考核维度是“模型影响力”。在内部,高层希望团队可以在业内成功塑造“最强模型”的心智。阿里集团 CEO 吴泳铭同时兼任阿里云 CEO,据悉吴泳铭频繁参与到基础模型团队的业务沟通之中,并密切留意模型团队的各种进展。
两个具体的维度,被视为阿里基础模型团队的考核点:其一是衍生模型量,其二是在开发者社区的受欢迎度。
由于阿里采取模型开源策略,基于 Qwen 开源模型的衍生模型总量,被视为一个关键指标。截至目前,这一数据已经超过 10 万。而在开发者社区的欢迎度,阿里会考虑多个具体指标,比如开源模型下载量等。虎嗅获悉,2024 年 Qwen 系列模型在开发者社区的下载量超过了 2 亿。
“在开发者社区之中,一个模型的影响力,主要有两个维度:一个是下载量,一个是衍生模型数。基于下载的开源模型,微调而成新的衍生模型后,需要重新上传至开发者社区。所以这两个维度可以比较好地反映一个开源模型的人气。”一位知情人士告诉虎嗅,在阿里内部针对全球开发者的模型影响力相关心智指标,从 2024 年开始就被高度重视,这和吴泳铭等技术出身的高管熟稔技术圈文化有关。
虎嗅另外独家获悉,2025 年阿里模型团队也意识到了诸如智驾、AI Agent、AI 硬件等机会风口的存在。为了更好地契合这些场景,基础模型团队依然会采取“多尺寸”策略。2024 年发布的 Qwen2 系列,总共发布了 7 种不同的模型尺寸,而即将发布的 Qwen3 尺寸类型可能会更多。
值得注意的是,伴随 Qwen3 发布,阿里正在开启史上最大规模的校招,而虎嗅获悉,校招的 HC 之中涉及到基础模型团队的岗位量也达到史上最高。和以往不同的是,目前基础模型团队在招人过程中,更看重人才的“AI 原生”,也就是说更希望引入一开始接触的就是大语言模型的人才,而非传统的 NLP 人才(自然语言模型)。
> 本文来自虎嗅,原文链接:https://www.huxiu.com/article/4187485.html?f=wyxwapp
+186 -124
View File
@@ -2,6 +2,18 @@
> 你全面的 AI 知识库,一网打尽最新 AI 资讯,都在 [https://ai.codefather.cn](https://ai.codefather.cn)
## 鱼皮的 AI 指南
[鱼皮的 AI 指南 - 0、开篇](鱼皮的%20AI%20指南/鱼皮的%20AI%20指南%20-%200、开篇.md)
[鱼皮的 AI 指南 - 1、AI 核心概念](鱼皮的%20AI%20指南/鱼皮的%20AI%20指南%20-%201、AI%20核心概念.md)
[鱼皮的 AI 指南 - 2、AI 实用工具](鱼皮的%20AI%20指南/鱼皮的%20AI%20指南%20-%202、AI%20实用工具.md)
[鱼皮的 AI 指南 - 3、AI 编程技巧](鱼皮的%20AI%20指南/鱼皮的%20AI%20指南%20-%203、AI%20编程技巧.md)
[鱼皮的 AI 指南 - 4、AI 编程技术](鱼皮的%20AI%20指南/鱼皮的%20AI%20指南%20-%204、AI%20编程技术.md)
## AI项目教程
[AI 海龟汤项目教程](AI项目教程/AI%20海龟汤项目教程.md)
@@ -12,129 +24,13 @@
[AI + Cursor 开发一个肺活量测试器](AI项目教程/AI%20+%20Cursor%20开发一个肺活量测试器.md)
## DeepSeek使用指南
## 关于DeepSeek
[🔥DeepSeek 小白快速上手指南](DeepSeek使用指南/🔥DeepSeek%20小白快速上手指南.md)
[DeepSeek 创始团队介绍](关于DeepSeek/DeepSeek%20创始团队介绍.md)
[几个技巧,教你去除文章的 AI 味!](DeepSeek使用指南/几个技巧,教你去除文章的%20AI%20味!.md)
[DeepSeek 发展历程](关于DeepSeek/DeepSeek%20发展历程.md)
[DeepSeek 发布新模型 V3-0324,附使用教程](DeepSeek使用指南/DeepSeek%20发布新模型%20V3-0324,附使用教程.md)
[50个常用的DeepSeek模仿风格提示词,去AI味的大杀器](DeepSeek使用指南/DeepSeek%20提问技巧/50个常用的DeepSeek模仿风格提示词,去AI味的大杀器.md)
[我发现了 DeepSeek 去 AI 味的捷径,太香了](DeepSeek使用指南/DeepSeek%20提问技巧/我发现了%20DeepSeek%20去%20AI%20味的捷径,太香了.md)
[最新清华大学DeepSeek使用手册第1-5版,官方完整版PDF免费下载](DeepSeek使用指南/最新清华大学DeepSeek使用手册第1-5版,官方完整版PDF免费下载.md)
[2分钟学会 DeepSeek API,竟然比官方更好用!](DeepSeek使用指南/2分钟学会%20DeepSeek%20API,竟然比官方更好用!.md)
[完整攻略:如何用好DeepSeek,一文汇总!](DeepSeek使用指南/完整攻略:如何用好DeepSeek,一文汇总!.md)
[【汇总】满血版 DeepSeek 第三方使用渠道](DeepSeek使用指南/【汇总】满血版%20DeepSeek%20第三方使用渠道.md)
[DeepSeek 提示词基本法则](DeepSeek使用指南/DeepSeek%20提问技巧/DeepSeek%20提示词基本法则.md)
[DeepSeek不好用?那是你还不知道这些指令!](DeepSeek使用指南/DeepSeek%20提问技巧/DeepSeek不好用?那是你还不知道这些指令!.md)
[吐血整理!DeepSeek神级指令,好用到爆!](DeepSeek使用指南/DeepSeek%20提问技巧/吐血整理!DeepSeek神级指令,好用到爆!.md)
[普通人也能轻松掌握的 20 个 DeepSeek 高频提示词(2025版)](DeepSeek使用指南/DeepSeek%20提问技巧/普通人也能轻松掌握的%2020%20个%20DeepSeek%20高频提示词(2025版).md)
[DeepSeek 本地部署教程](DeepSeek使用指南/DeepSeek%20本地部署教程.md)
[如何在iPhone上用语音调用Deepseek](DeepSeek使用指南/如何在iPhone上用语音调用Deepseek.md)
[普通人能用DeepSeek做什么?20个实用建议](DeepSeek使用指南/普通人能用DeepSeek做什么?20个实用建议.md)
## DeepSeek应用场景
[DeepSeek告诉我:30岁到40岁,一般会拥有这么多的存款](DeepSeek应用场景/DeepSeek%20+%20理财/DeepSeek告诉我:30岁到40岁,一般会拥有这么多的存款.md)
[用DeepSeek搞钱,日赚百万](DeepSeek应用场景/DeepSeek%20+%20理财/用DeepSeek搞钱,日赚百万.md)
[3 小时做游戏,10 天狂赚 28 万!程序员用 AI 躺赚?](DeepSeek应用场景/DeepSeek%20+%20编程开发/3%20小时做游戏,10%20天狂赚%2028%20万!程序员用%20AI%20躺赚?.md)
[和 Deepseek 联手,做个哪吒的乾坤圈视频](DeepSeek应用场景/DeepSeek%20+%20创意设计/和%20Deepseek%20联手,做个哪吒的乾坤圈视频.md)
[5 个不得不收藏的 Deepseek 王炸组合!](DeepSeek应用场景/DeepSeek%20+%20创意设计/5%20个不得不收藏的%20Deepseek%20王炸组合!.md)
[💗用 DeepSeek 给对象做个网站,她一定感动坏了](DeepSeek应用场景/DeepSeek%20+%20编程开发/💗用%20DeepSeek%20给对象做个网站,她一定感动坏了.md)
[DeepSeek装进VSCode,编程非常丝滑!](DeepSeek应用场景/DeepSeek%20+%20编程开发/DeepSeek装进VSCode,编程非常丝滑!.md)
[教你用DeepSeek+Clien,从0到1开发一个APP](DeepSeek应用场景/DeepSeek%20+%20编程开发/教你用DeepSeek+Clien,从0到1开发一个APP.md)
[如何用DeepSeek更高效地工作:10个实用技巧](DeepSeek应用场景/DeepSeek%20+%20办公效率/如何用DeepSeek更高效地工作:10个实用技巧.md)
[手把手教你在word中接入deepseek,秒生文档材料](DeepSeek应用场景/DeepSeek%20+%20办公效率/手把手教你在word中接入deepseek,秒生文档材料.md)
[法律人保姆级deepseek使用指南(附指令版)](DeepSeek应用场景/DeepSeek%20+%20办公效率/法律人保姆级deepseek使用指南(附指令版).md)
[普通人如何通过炒股买基金赚到100万?](DeepSeek应用场景/DeepSeek%20+%20理财/普通人如何通过炒股买基金赚到100万?.md)
[用Deepseek回答:如果有100万闲钱,几年内不用,该怎么理财?](DeepSeek应用场景/DeepSeek%20+%20理财/用Deepseek回答:如果有100万闲钱,几年内不用,该怎么理财?.md)
[DeepSeek接入Python,一般电脑也能飞速跑,确实可以封神了!](DeepSeek应用场景/DeepSeek%20+%20编程开发/DeepSeek接入Python,一般电脑也能飞速跑,确实可以封神了!.md)
[DeepSeek一句话搞定修图难题](DeepSeek应用场景/DeepSeek%20+%20创意设计/DeepSeek一句话搞定修图难题.md)
[deepseek+数字人王炸组合使用方法](DeepSeek应用场景/DeepSeek%20+%20创意设计/deepseek+数字人王炸组合使用方法.md)
[用 deepseek 做 AI 视频,绝了,和抄作业一样简单!](DeepSeek应用场景/DeepSeek%20+%20创意设计/用%20deepseek%20做%20AI%20视频,绝了,和抄作业一样简单!.md)
[绝绝子!用deepseek做AI视频,涨粉10W+(附保姆级教程)](DeepSeek应用场景/DeepSeek%20+%20创意设计/绝绝子!用deepseek做AI视频,涨粉10W+(附保姆级教程).md)
[这怕是全网最强的 DeepSeek 图片教程吧,赶紧收藏了!](DeepSeek应用场景/DeepSeek%20+%20创意设计/这怕是全网最强的%20DeepSeek%20图片教程吧,赶紧收藏了!.md)
[DeepSeek R1 + 个人知识库,直接起飞!](DeepSeek应用场景/DeepSeek%20+%20办公效率/DeepSeek%20R1%20+%20个人知识库,直接起飞!.md)
[DeepSeek嵌入到Excel,提升10倍工作效率,太牛了!](DeepSeek应用场景/DeepSeek%20+%20办公效率/DeepSeek嵌入到Excel,提升10倍工作效率,太牛了!.md)
[DeepSeek配合KIMI,自动生成PPT,感觉自己要失业了!](DeepSeek应用场景/DeepSeek%20+%20办公效率/DeepSeek配合KIMI,自动生成PPT,感觉自己要失业了!.md)
[WPS里装上deepseek,简直就是办公神器](DeepSeek应用场景/DeepSeek%20+%20办公效率/WPS里装上deepseek,简直就是办公神器.md)
[利用deepseek建立专属销售知识库](DeepSeek应用场景/DeepSeek%20+%20办公效率/利用deepseek建立专属销售知识库.md)
[3秒让DeepSeek写出爆款小红书](DeepSeek应用场景/DeepSeek%20+%20内容创作/3秒让DeepSeek写出爆款小红书.md)
[人有多大胆,地有多大产:如何用DeepSeek写长篇小说](DeepSeek应用场景/DeepSeek%20+%20内容创作/人有多大胆,地有多大产:如何用DeepSeek写长篇小说.md)
[如何利用DeepSeek进行高效内容创作](DeepSeek应用场景/DeepSeek%20+%20内容创作/如何利用DeepSeek进行高效内容创作.md)
[用DeepSeek做小红书真的太牛了!轻轻松松打造爆款笔记](DeepSeek应用场景/DeepSeek%20+%20内容创作/用DeepSeek做小红书真的太牛了!轻轻松松打造爆款笔记.md)
[用DeepSeek写文章?这4个骚操作让你躺平也能出爆款!(含提示词)](DeepSeek应用场景/DeepSeek%20+%20内容创作/用DeepSeek写文章?这4个骚操作让你躺平也能出爆款!(含提示词).md)
[DeepSeek使用指南:提升公文、新闻与广告文案写作效率的三大技巧 ](DeepSeek应用场景/DeepSeek%20+%20内容创作/DeepSeek使用指南:提升公文、新闻与广告文案写作效率的三大技巧%20.md)
[教师必备DeepSeek使用指南来了!5大教学应用场景+实操案例+隐藏用法](DeepSeek应用场景/DeepSeek%20+%20办公效率/教师必备DeepSeek使用指南来了!5大教学应用场景+实操案例+隐藏用法.md)
[AI写小说怎么写?deepseek帮你写小说教程](DeepSeek应用场景/DeepSeek%20+%20内容创作/AI写小说怎么写?deepseek帮你写小说教程.md)
## DeepSeek技术解析
[DeepSeek-R1的四个训练阶段](DeepSeek技术解析/DeepSeek%20模型训练/DeepSeek-R1的四个训练阶段.md)
[DeepSeek-R1的训练流程强化学习(RL)阶段采用了GRPO算法](DeepSeek技术解析/DeepSeek%20模型训练/DeepSeek-R1的训练流程强化学习(RL)阶段采用了GRPO算法.md)
[DeepSeek-V3 高效训练关键技术分析](DeepSeek技术解析/DeepSeek%20模型训练/DeepSeek-V3%20高效训练关键技术分析.md)
[DeepSeek华丽文风从何而来?业内人士:训练数据、训练策略和迭代优化缺一不可](DeepSeek技术解析/DeepSeek%20模型训练/DeepSeek华丽文风从何而来?业内人士:训练数据、训练策略和迭代优化缺一不可.md)
[DeepSeek最强专业拆解:清交复教授超硬核解读](DeepSeek技术解析/DeepSeek%20技术分析/DeepSeek最强专业拆解:清交复教授超硬核解读.md)
[DeepSeek的优势与不足](DeepSeek技术解析/DeepSeek%20技术分析/DeepSeek的优势与不足.md)
[一文详解 DeepSeek 技术架构](DeepSeek技术解析/DeepSeek%20技术分析/一文详解%20DeepSeek%20技术架构.md)
[DeepSeek vs. ChatGPT:谁才是真正的王者?](DeepSeek技术解析/DeepSeek%20技术分析/DeepSeek%20vs.%20ChatGPT:谁才是真正的王者?.md)
[DeepSeek 爆火逻辑、行业影响及对未来AI发展的启示](DeepSeek技术解析/DeepSeek%20技术分析/DeepSeek%20爆火逻辑、行业影响及对未来AI发展的启示.md)
[DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方”](DeepSeek技术解析/DeepSeek%20技术分析/DeepSeek-R1%20技术全景解析:从原理到实践的“炼金术配方”.md)
[DeepSeek技术解读:从V3到R1的MoE架构创新](DeepSeek技术解析/DeepSeek%20技术分析/DeepSeek技术解读:从V3到R1的MoE架构创新.md)
[什么是 DeepSeek](关于DeepSeek/什么是%20DeepSeek.md)
## DeepSeek资源汇总
@@ -148,6 +44,56 @@
## Deepseek行业资讯
[阿里秘密研发新模型将发布,影响力指标成最重要考核](Deepseek行业资讯/2025-04/阿里秘密研发新模型将发布,影响力指标成最重要考核.md)
[有史以来最大力度!苹果进军医疗,计划明年推出AI医生 - 华尔街见闻](Deepseek行业资讯/2025-04/有史以来最大力度!苹果进军医疗,计划明年推出AI医生%20-%20华尔街见闻.md)
[一张照片生成连贯全片!Runway Gen-4 深夜发布,终于捅破 AI 视频多年的天花板](Deepseek行业资讯/2025-04/一张照片生成连贯全片!Runway%20Gen-4%20深夜发布,终于捅破%20AI%20视频多年的天花板.md)
[智谱发布 AutoGLM 沉思:首个免费、具备深度研究和操作能力的 AI Agent](Deepseek行业资讯/2025-04/智谱发布%20AutoGLM%20沉思:首个免费、具备深度研究和操作能力的%20AI%20Agent.md)
[MiniMax Audio 发布 Speech-02 模型,单次输入支持 20 万字符](Deepseek行业资讯/2025-04/MiniMax%20Audio%20发布%20Speech-02%20模型,单次输入支持%2020%20万字符.md)
[亚马逊推出 Nova Act:可操控网页浏览器的 AI 智能体](Deepseek行业资讯/2025-04/亚马逊推出%20Nova%20Act:可操控网页浏览器的%20AI%20智能体.md)
[腾讯元宝识图放大招!一次传 10 张图,朋友圈文案、电子书金句全搞定!](Deepseek行业资讯/2025-04/腾讯元宝识图放大招!一次传%2010%20张图,朋友圈文案、电子书金句全搞定!.md)
[售价超 7000 元,Meta 想用眼镜取代 iPhone](Deepseek行业资讯/2025-04/售价超%207000%20元,Meta%20想用眼镜取代%20iPhone.md)
[百度飞桨框架 3.0 正式版发布](Deepseek行业资讯/2025-04/百度飞桨框架%203.0%20正式版发布.md)
[OpenAI 上线“OpenAI 学院”,已提供数十小时免费 AI 学习资源](Deepseek行业资讯/2025-04/OpenAI%20上线“OpenAI%20学院”,已提供数十小时免费%20AI%20学习资源.md)
[阿里开源全新推理模型 QwQ-32B,一台 Mac 就能实现顶级推理能力](Deepseek行业资讯/2025-03/阿里开源全新推理模型%20QwQ-32B,一台%20Mac%20就能实现顶级推理能力.md)
[实测 Manus:首个真干活 AI,中国造(附 50 个用例 + 拆解)](Deepseek行业资讯/2025-03/实测%20Manus:首个真干活%20AI,中国造(附%2050%20个用例%20+%20拆解).md)
[用于临床工作流程的新 AI 助手,微软推出 Microsoft Dragon Copilot](Deepseek行业资讯/2025-03/用于临床工作流程的新%20AI%20助手,微软推出%20Microsoft%20Dragon%20Copilot.md)
[Model Context Protocol,看这一篇就够了](Deepseek行业资讯/2025-03/Model%20Context%20Protocol,看这一篇就够了.md)
[谷歌 Gemini 新增 Canvas 与音频概览功能,提升用户生产力](Deepseek行业资讯/2025-03/谷歌%20Gemini%20新增%20Canvas%20与音频概览功能,提升用户生产力.md)
[马斯克进军 AI 视频,收购视频生成初创公司,4 人 13 个月打造类 Sora 模型](Deepseek行业资讯/2025-03/马斯克进军%20AI%20视频,收购视频生成初创公司,4%20人%2013%20个月打造类%20Sora%20模型.md)
[xAI 再更新,各项能力卓越](Deepseek行业资讯/2025-04/xAI%20再更新,各项能力卓越.md)
[百度推出两款 AI 大模型](Deepseek行业资讯/2025-03/百度推出两款%20AI%20大模型.md)
[Claude 现已支持网络搜索功能](Deepseek行业资讯/2025-03/Claude%20现已支持网络搜索功能.md)
[DeepSeek-V3 模型更新,各项能力全面进阶](Deepseek行业资讯/2025-03/DeepSeek-V3%20模型更新,各项能力全面进阶.md)
[腾讯混元 T1 正式版发布](Deepseek行业资讯/2025-03/腾讯混元%20T1%20正式版发布.md)
[Ideogram 正式发布 3.0 版本模型:真实感与创意表现再突破](Deepseek行业资讯/2025-03/Ideogram%20正式发布%203.0%20版本模型:真实感与创意表现再突破.md)
[新推理模型来了!阿里 Qwen Chat 平台已上线“深度思考”功能,支持联网搜索](Deepseek行业资讯/2025-03/新推理模型来了!阿里%20Qwen%20Chat%20平台已上线“深度思考”功能,支持联网搜索.md)
[刚刚,GPT-4o 原生图像生成上线,P 图、生图也就一嘴的事](Deepseek行业资讯/2025-03/刚刚,GPT-4o%20原生图像生成上线,P%20图、生图也就一嘴的事.md)
[谷歌发布 Gemini 2.5 人工智能模型,实现复杂思维](Deepseek行业资讯/2025-03/谷歌发布%20Gemini%202.5%20人工智能模型,实现复杂思维.md)
[谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西](Deepseek行业资讯/2025-03/谷歌终于登顶一次了!最强推理模型Gemini%202.5%20Pro实测体验,真的有点东西.md)
[DeepSeek回答现在能不能入手黄金 将维持高位震荡](Deepseek行业资讯/2025-03/DeepSeek回答现在能不能入手黄金%20将维持高位震荡.md)
@@ -216,13 +162,129 @@
[DeepSeek带飞科大讯飞?](Deepseek行业资讯/2025-02/DeepSeek带飞科大讯飞?.md)
## 关于DeepSeek
## DeepSeek技术解析
[DeepSeek 创始团队介绍](关于DeepSeek/DeepSeek%20创始团队介绍.md)
[DeepSeek-R1的四个训练阶段](DeepSeek技术解析/DeepSeek%20模型训练/DeepSeek-R1的四个训练阶段.md)
[DeepSeek 发展历程](关于DeepSeek/DeepSeek%20发展历程.md)
[DeepSeek-R1的训练流程强化学习(RL)阶段采用了GRPO算法](DeepSeek技术解析/DeepSeek%20模型训练/DeepSeek-R1的训练流程强化学习(RL)阶段采用了GRPO算法.md)
[什么是 DeepSeek](关于DeepSeek/什么是%20DeepSeek.md)
[DeepSeek-V3 高效训练关键技术分析](DeepSeek技术解析/DeepSeek%20模型训练/DeepSeek-V3%20高效训练关键技术分析.md)
[DeepSeek华丽文风从何而来?业内人士:训练数据、训练策略和迭代优化缺一不可](DeepSeek技术解析/DeepSeek%20模型训练/DeepSeek华丽文风从何而来?业内人士:训练数据、训练策略和迭代优化缺一不可.md)
[DeepSeek最强专业拆解:清交复教授超硬核解读](DeepSeek技术解析/DeepSeek%20技术分析/DeepSeek最强专业拆解:清交复教授超硬核解读.md)
[DeepSeek的优势与不足](DeepSeek技术解析/DeepSeek%20技术分析/DeepSeek的优势与不足.md)
[一文详解 DeepSeek 技术架构](DeepSeek技术解析/DeepSeek%20技术分析/一文详解%20DeepSeek%20技术架构.md)
[DeepSeek vs. ChatGPT:谁才是真正的王者?](DeepSeek技术解析/DeepSeek%20技术分析/DeepSeek%20vs.%20ChatGPT:谁才是真正的王者?.md)
[DeepSeek 爆火逻辑、行业影响及对未来AI发展的启示](DeepSeek技术解析/DeepSeek%20技术分析/DeepSeek%20爆火逻辑、行业影响及对未来AI发展的启示.md)
[DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方”](DeepSeek技术解析/DeepSeek%20技术分析/DeepSeek-R1%20技术全景解析:从原理到实践的“炼金术配方”.md)
[DeepSeek技术解读:从V3到R1的MoE架构创新](DeepSeek技术解析/DeepSeek%20技术分析/DeepSeek技术解读:从V3到R1的MoE架构创新.md)
## DeepSeek应用场景
[DeepSeek告诉我:30岁到40岁,一般会拥有这么多的存款](DeepSeek应用场景/DeepSeek%20+%20理财/DeepSeek告诉我:30岁到40岁,一般会拥有这么多的存款.md)
[用DeepSeek搞钱,日赚百万](DeepSeek应用场景/DeepSeek%20+%20理财/用DeepSeek搞钱,日赚百万.md)
[3 小时做游戏,10 天狂赚 28 万!程序员用 AI 躺赚?](DeepSeek应用场景/DeepSeek%20+%20编程开发/3%20小时做游戏,10%20天狂赚%2028%20万!程序员用%20AI%20躺赚?.md)
[和 Deepseek 联手,做个哪吒的乾坤圈视频](DeepSeek应用场景/DeepSeek%20+%20创意设计/和%20Deepseek%20联手,做个哪吒的乾坤圈视频.md)
[5 个不得不收藏的 Deepseek 王炸组合!](DeepSeek应用场景/DeepSeek%20+%20创意设计/5%20个不得不收藏的%20Deepseek%20王炸组合!.md)
[💗用 DeepSeek 给对象做个网站,她一定感动坏了](DeepSeek应用场景/DeepSeek%20+%20编程开发/💗用%20DeepSeek%20给对象做个网站,她一定感动坏了.md)
[DeepSeek装进VSCode,编程非常丝滑!](DeepSeek应用场景/DeepSeek%20+%20编程开发/DeepSeek装进VSCode,编程非常丝滑!.md)
[教你用DeepSeek+Clien,从0到1开发一个APP](DeepSeek应用场景/DeepSeek%20+%20编程开发/教你用DeepSeek+Clien,从0到1开发一个APP.md)
[如何用DeepSeek更高效地工作:10个实用技巧](DeepSeek应用场景/DeepSeek%20+%20办公效率/如何用DeepSeek更高效地工作:10个实用技巧.md)
[手把手教你在word中接入deepseek,秒生文档材料](DeepSeek应用场景/DeepSeek%20+%20办公效率/手把手教你在word中接入deepseek,秒生文档材料.md)
[法律人保姆级deepseek使用指南(附指令版)](DeepSeek应用场景/DeepSeek%20+%20办公效率/法律人保姆级deepseek使用指南(附指令版).md)
[普通人如何通过炒股买基金赚到100万?](DeepSeek应用场景/DeepSeek%20+%20理财/普通人如何通过炒股买基金赚到100万?.md)
[用Deepseek回答:如果有100万闲钱,几年内不用,该怎么理财?](DeepSeek应用场景/DeepSeek%20+%20理财/用Deepseek回答:如果有100万闲钱,几年内不用,该怎么理财?.md)
[DeepSeek接入Python,一般电脑也能飞速跑,确实可以封神了!](DeepSeek应用场景/DeepSeek%20+%20编程开发/DeepSeek接入Python,一般电脑也能飞速跑,确实可以封神了!.md)
[DeepSeek一句话搞定修图难题](DeepSeek应用场景/DeepSeek%20+%20创意设计/DeepSeek一句话搞定修图难题.md)
[deepseek+数字人王炸组合使用方法](DeepSeek应用场景/DeepSeek%20+%20创意设计/deepseek+数字人王炸组合使用方法.md)
[用 deepseek 做 AI 视频,绝了,和抄作业一样简单!](DeepSeek应用场景/DeepSeek%20+%20创意设计/用%20deepseek%20做%20AI%20视频,绝了,和抄作业一样简单!.md)
[绝绝子!用deepseek做AI视频,涨粉10W+(附保姆级教程)](DeepSeek应用场景/DeepSeek%20+%20创意设计/绝绝子!用deepseek做AI视频,涨粉10W+(附保姆级教程).md)
[这怕是全网最强的 DeepSeek 图片教程吧,赶紧收藏了!](DeepSeek应用场景/DeepSeek%20+%20创意设计/这怕是全网最强的%20DeepSeek%20图片教程吧,赶紧收藏了!.md)
[DeepSeek R1 + 个人知识库,直接起飞!](DeepSeek应用场景/DeepSeek%20+%20办公效率/DeepSeek%20R1%20+%20个人知识库,直接起飞!.md)
[DeepSeek嵌入到Excel,提升10倍工作效率,太牛了!](DeepSeek应用场景/DeepSeek%20+%20办公效率/DeepSeek嵌入到Excel,提升10倍工作效率,太牛了!.md)
[DeepSeek配合KIMI,自动生成PPT,感觉自己要失业了!](DeepSeek应用场景/DeepSeek%20+%20办公效率/DeepSeek配合KIMI,自动生成PPT,感觉自己要失业了!.md)
[WPS里装上deepseek,简直就是办公神器](DeepSeek应用场景/DeepSeek%20+%20办公效率/WPS里装上deepseek,简直就是办公神器.md)
[利用deepseek建立专属销售知识库](DeepSeek应用场景/DeepSeek%20+%20办公效率/利用deepseek建立专属销售知识库.md)
[3秒让DeepSeek写出爆款小红书](DeepSeek应用场景/DeepSeek%20+%20内容创作/3秒让DeepSeek写出爆款小红书.md)
[人有多大胆,地有多大产:如何用DeepSeek写长篇小说](DeepSeek应用场景/DeepSeek%20+%20内容创作/人有多大胆,地有多大产:如何用DeepSeek写长篇小说.md)
[如何利用DeepSeek进行高效内容创作](DeepSeek应用场景/DeepSeek%20+%20内容创作/如何利用DeepSeek进行高效内容创作.md)
[用DeepSeek做小红书真的太牛了!轻轻松松打造爆款笔记](DeepSeek应用场景/DeepSeek%20+%20内容创作/用DeepSeek做小红书真的太牛了!轻轻松松打造爆款笔记.md)
[用DeepSeek写文章?这4个骚操作让你躺平也能出爆款!(含提示词)](DeepSeek应用场景/DeepSeek%20+%20内容创作/用DeepSeek写文章?这4个骚操作让你躺平也能出爆款!(含提示词).md)
[DeepSeek使用指南:提升公文、新闻与广告文案写作效率的三大技巧 ](DeepSeek应用场景/DeepSeek%20+%20内容创作/DeepSeek使用指南:提升公文、新闻与广告文案写作效率的三大技巧%20.md)
[教师必备DeepSeek使用指南来了!5大教学应用场景+实操案例+隐藏用法](DeepSeek应用场景/DeepSeek%20+%20办公效率/教师必备DeepSeek使用指南来了!5大教学应用场景+实操案例+隐藏用法.md)
[AI写小说怎么写?deepseek帮你写小说教程](DeepSeek应用场景/DeepSeek%20+%20内容创作/AI写小说怎么写?deepseek帮你写小说教程.md)
## DeepSeek使用指南
[🔥DeepSeek 小白快速上手指南](DeepSeek使用指南/🔥DeepSeek%20小白快速上手指南.md)
[几个技巧,教你去除文章的 AI 味!](DeepSeek使用指南/几个技巧,教你去除文章的%20AI%20味!.md)
[DeepSeek 发布新模型 V3-0324,附使用教程](DeepSeek使用指南/DeepSeek%20发布新模型%20V3-0324,附使用教程.md)
[50个常用的DeepSeek模仿风格提示词,去AI味的大杀器](DeepSeek使用指南/DeepSeek%20提问技巧/50个常用的DeepSeek模仿风格提示词,去AI味的大杀器.md)
[我发现了 DeepSeek 去 AI 味的捷径,太香了](DeepSeek使用指南/DeepSeek%20提问技巧/我发现了%20DeepSeek%20去%20AI%20味的捷径,太香了.md)
[最新清华大学DeepSeek使用手册第1-5版,官方完整版PDF免费下载](DeepSeek使用指南/最新清华大学DeepSeek使用手册第1-5版,官方完整版PDF免费下载.md)
[2分钟学会 DeepSeek API,竟然比官方更好用!](DeepSeek使用指南/2分钟学会%20DeepSeek%20API,竟然比官方更好用!.md)
[完整攻略:如何用好DeepSeek,一文汇总!](DeepSeek使用指南/完整攻略:如何用好DeepSeek,一文汇总!.md)
[【汇总】满血版 DeepSeek 第三方使用渠道](DeepSeek使用指南/【汇总】满血版%20DeepSeek%20第三方使用渠道.md)
[DeepSeek 提示词基本法则](DeepSeek使用指南/DeepSeek%20提问技巧/DeepSeek%20提示词基本法则.md)
[DeepSeek不好用?那是你还不知道这些指令!](DeepSeek使用指南/DeepSeek%20提问技巧/DeepSeek不好用?那是你还不知道这些指令!.md)
[吐血整理!DeepSeek神级指令,好用到爆!](DeepSeek使用指南/DeepSeek%20提问技巧/吐血整理!DeepSeek神级指令,好用到爆!.md)
[普通人也能轻松掌握的 20 个 DeepSeek 高频提示词(2025版)](DeepSeek使用指南/DeepSeek%20提问技巧/普通人也能轻松掌握的%2020%20个%20DeepSeek%20高频提示词(2025版).md)
[DeepSeek 本地部署教程](DeepSeek使用指南/DeepSeek%20本地部署教程.md)
[如何在iPhone上用语音调用Deepseek](DeepSeek使用指南/如何在iPhone上用语音调用Deepseek.md)
[普通人能用DeepSeek做什么?20个实用建议](DeepSeek使用指南/普通人能用DeepSeek做什么?20个实用建议.md)
> 你全面的 AI 知识库,一网打尽最新 AI 资讯,都在 [https://ai.codefather.cn](https://ai.codefather.cn)
@@ -0,0 +1,29 @@
# 鱼皮的 AI 指南 - 0、开篇
> ⭐️ 推荐观看视频版:[https://www.bilibili.com/video/BV1i9Z8YhEja](https://www.bilibili.com/video/BV1i9Z8YhEja/)
AI 会淘汰程序员么?
我的答案是 “会”。
AI 会不会淘汰程序员?这是学编程的朋友们非常关注的问题,我也一样,因为如果程序员被淘汰了,那我这个程序员博主也就光荣退休了。
“你讲编程还有个毛用?你做教程还给谁看?给 AI 看吗?”
“AI 自己都能生成教程了,自己都能自产自销进化升级了,还要你?”
我觉得 AI 会淘汰很多程序员,但是程序员这个岗位不会消失。为什么呢?
假设 AI 是个能独立思考、有手有脚的数码宝贝。它很强,你让它写代码,它也能写,写得还比人更快更好;但是,它要是不听话,程序跑不起来、多写几个 Bug 都是小事,搞不好把你整个电脑都给烧了。而且一旦 AI 搞砸了、黑化了,往你的代码里加点小广告、加点 “老八秘制小汉堡”,谁跟着倒霉啊?还不是咱们这些使用者嘛?毕竟 AI 又不能代替人类去坐牢对吧。
![](https://pic.yupi.icu/1/1743560615302-c65d6082-7385-4d57-8700-58fe410332cb.png)
而且你想,当年汽车取代马车,虽然车夫被淘汰,但是却催生了司机这个新岗位!
所以想不被 AI 淘汰,必须要把自己的经验和 AI 融合,驾驭 AI 更快地完成工作。以后程序员将不再是码农,而是 AI 操控师。
下面我会发起《AI 程序员改造计划》,给大家分享 AI 时代下,程序员必须学习的知识。是我这两年半积累的经验,哪怕你之前完全没接触过 AI,看完后对 AI 的了解也会超过 90% 的同学,也就不用担心被淘汰了。
要分享的内容包含 4 大部分,最后一部分【AI + 编程】是最值得学习的。别的博主不会把这些东西一次性讲完,干货很多,建议收藏起来慢慢看~
@@ -0,0 +1,118 @@
# 鱼皮的 AI 指南 - 1、AI 核心概念
> ⭐️ 推荐观看视频版:[https://www.bilibili.com/video/BV1i9Z8YhEja](https://www.bilibili.com/video/BV1i9Z8YhEja/)
首先,我会通过带大家实操一个主流的 AI 应用开发平台 [Dify](https://dify.ai/),把 AI 的核心概念串联起来,更高效直观地带大家理解。
首先进入平台,创建一个 AI 应用,然后进入到了 AI 对话界面。
![](https://pic.yupi.icu/1/1743560753186-1e9452e6-0d38-4070-b369-c674bc418c91.png)
首次使用时,我们要选择 **大模型**(LLM)。大模型是 AI 的大脑,是指具有海量参数的人工智能模型,通过大规模的预训练获得广泛的知识和能力。
![](https://pic.yupi.icu/1/1743560803824-ab33d9d9-e994-45e5-8190-fc104e679747.png)
不同大模型的参数规模、处理能力、接受的对话长度是不一样的。
![](https://pic.yupi.icu/1/1743560841202-c37cde5b-0b25-4ebb-adff-3ab66af35d75.png)
选择大模型后,我们可以设置参数来调整大模型的输出,比如 **温度** 可以控制模型输出的随机性,温度值越高,模型输出越随机多样;温度值越低,输出越确定保守。
![](https://pic.yupi.icu/1/1743560855583-7efaebb7-3552-4a5b-9787-adbb9acaddc6.png)
下面我们来和 AI 进行对话,输入给 AI 的内容我们称为 **提示词 Prompt**,用来引导模型生成特定内容或执行特定任务,提示词的质量直接决定了 AI 输出的准确度。
提示词又可以分为系统提示词和用户提示词,系统提示词可以整体约束 AI 输出的内容,一般需要提前设置;用户提示词则是用户自主输入的内容,随用随输。
![](https://pic.yupi.icu/1/1743560920031-d86572e4-b09e-46b4-8aa8-c734a96bec44.png)
我们进行一次对话后,会发现对话下方展示了 “花费 Token”。
![](https://pic.yupi.icu/1/1743561058442-beebd2ac-94a0-4f00-8e56-f819822247e1.png)
看到 “花费” 很多同学就慌了,啥是 Token 啊?Token 贵不贵啊?
**Token** 是大语言模型处理文本的基本单位,可能是单词或标点符号,模型的输入和输出都是按 [Token 计算](https://tiktoken.aigc2d.com/) 的,一般 Token 越多,成本越高、并且输出速度越慢。不同模型的计费都不太一样,一般 100 万 Token 要几十块钱吧。
![](https://pic.yupi.icu/1/1743561097206-472514a9-3d13-4408-b222-2207b00f611a.png)
让我们再来添加一个大模型,谷歌的 Gemini,这次它让我输入 **API Key**,不让我免费用了。没事,我们去大模型官方去申请一个调用秘钥,输入过来即可,之后的每次扣费都会记在这个 API Key 上。
![](https://pic.yupi.icu/1/1743561147038-33ce3662-02df-40f1-b174-9c9076861bf6.png)
模型添加成功后,可以看到 Gemini 也支持非常多不同的大模型,比如标准版和 Lite 轻量版。
![](https://pic.yupi.icu/1/1743561208978-e661368f-044f-423a-9bbd-5925295040df.png)
可以将轻量版简单地理解为蒸馏版本。在实际应用中,大模型可能因资源需求高而难以部署。采用 **模型蒸馏**,将复杂大模型的知识转移到更小模型中,就可以在保持模型性能的同时,减小模型体积,降低推理成本。
![](https://pic.yupi.icu/1/1743561253715-f28757b3-209c-4fe9-b602-32273c1ae8d5.png)
有些模型是具备 **多模态** 能力的,多模态大模型能够同时理解和处理多种类型的信息,比如文本、图像、音频和视频,实现图生文、文生图、文生视频等更智能的应用。
![](https://pic.yupi.icu/1/1743561411703-df0a7367-69b5-48ea-bb23-21fe8d76c8d2.png)
有些大模型还具备 **文档解析** 的能力,可以上传一个 PDF 文件作为 **上下文信息**,交给 AI 去总结。还记得几年前有个很火的爆款产品 ChatPDF,现在人人都能实现了。
![](https://pic.yupi.icu/1/1743561623719-2f694756-c117-499a-9430-3ee275a8a206.png)
但有时,大模型可能缺少了某些信息,比如让 AI 总结鱼皮写的《保姆级写简历指南》,它给的信息就不准确,怎么办呢?我们可以开启知识库功能,背后是 **RAG 检索增强生成** 技术,来利用外部知识库给 AI 补充知识。
![](https://pic.yupi.icu/1/1743561648847-337df359-2e2a-4e05-bec6-fdff52b3be1d.png)
首先创建知识库,上传知识文档:
![](https://pic.yupi.icu/1/1743561783744-1ddce7bb-802e-4feb-9e8f-7e0a83b4ad98.png)
对文本进行切分,可以自己设置分块的规则:
![](https://pic.yupi.icu/1/1743561816205-22494e52-c011-49fe-8537-3b7f0f441a51.png)
然后利用 **Embedding 嵌入** 技术,将文本、图像等数据转换为向量表示,并写入到向量数据库中。用户向 AI 提问时,会将问题转换成向量,从知识库中检索和问题相关的信息,再将这些信息和问题一起输入大模型进行处理,使大模型的回答更准确。
![](https://pic.yupi.icu/1/1743561872916-7971c368-14bd-49c2-9bd9-604973f469e3.png)
好,这样我们的 AI 应用就做完了,可以发布给别人用,也可以通过 **API** 接口,在自己的代码程序中通过网络请求来调用。
![](https://pic.yupi.icu/1/1743561915955-ad27735a-c927-4207-b769-03fda32081b6.png)
刚刚我们只是牛刀小试,做了个聊天助手罢了。但实际上现在 AI 的应用已经升级为 **智能体** 了。智能体是能够感知环境、进行推理、制定计划、做出决策并自主采取行动来实现目标的 AI 系统。
![](https://pic.yupi.icu/1/1743561972671-9c7ad13e-a467-4a08-ba14-711d4640939c.png)
我们可以给智能体提供 **工具**,比如网页搜索、查询天气、调用数据库等等,让智能体完成更复杂的任务。安装工具后,提供给智能体,它就会在需要的时候使用这个工具,比如从网上检索到内容,进行总结后再回复。这样一来,AI 的应用范围和能力边界将会是无限大。
![](https://pic.yupi.icu/1/1743562005435-e5ece3f2-5f4b-4729-b490-a1e51f1f006e.png)
当然,如果你用的 AI 大模型是个睿智,它可能不会用工具,所以我建议给智能体选用思考能力更强的推理模型。有些模型会使用 **思维链**CoT)和 **ReAct** 技术,让模型先思考问题、推理分析并提出行动计划,然后再行动,再基于结果进一步推理。并且中间步骤和思考过程是公开可见的,让我们能够理解模型是如何得出结论的,让整个推理过程更透明。
- 思维链 CoT:在处理复杂问题时,模型直接给出答案可能缺乏逻辑性和可解释性。思维链技术(Chain of Thought, CoT)通过让模型详细介绍中间步骤和推理过程,使人们能够理解模型是如何得出结论的,让整个推理过程更透明。
- ReAct:结合推理(Reason)和行动(Act)的 AI 开发范式,模型先思考问题,推理分析并提出行动计划,然后执行行动,再基于结果进一步推理。这种循环能使 AI 能够更有效地解决复杂问题。
![](https://pic.yupi.icu/1/1743562152661-80fabf5f-07a4-4463-a980-67da980f0ede.png)
有时,单一的智能体并不能完成我们的任务,比如自动生成 100 个短视频、自动做个游戏并发布上线。这时我们可以使用 **智能体工作流**Agentic Workflow),可以通过规划和编排,让智能体自由搭配功能,自动化实现各种复杂的任务。有点像可视化编程。
![](https://pic.yupi.icu/1/1743562195750-57a3b344-4282-4279-bd71-510f60fc17c6.png)
最后再分享一个最近很火的概念,叫 **MCP**Model Context Protocol 模型上下文协议,用于实现 AI 与外部工具或数据的标准化交互。
![](https://pic.yupi.icu/1/1743562215479-a19f8b1c-0190-41b4-8a2f-f508b24e74a7.png)
简单来说,利用 MCP 服务,我们可以更方便地给 AI 集成不同的工具和数据,增强 AI 应用的功能。首先安装 MCP Agent 策略,让智能体支持调用 MCP:
![](https://pic.yupi.icu/1/1743562275496-34bcb486-235d-4d97-bc5a-cdf00f59cff7.png)
然后可以去 MCP 大全网站找到我们需要的 [MCP 服务](https://mcp.so/server/time),比如查询当前时间。
![](https://pic.yupi.icu/1/1743562325916-dbef66dc-d0d1-4a60-9bed-68691c462677.png)
再回到智能体工作流中,填写 MCP 服务器地址、调用 MCP 的指令和查询条件等信息,AI 就可以在需要的时候向 MCP 发送请求来完成数据啦。
![](https://pic.yupi.icu/1/1743562400230-79c99317-98f1-4579-8884-a5bf53623683.png)
OK,AI 核心概念讲完了,看到这里,你应该就超过了 70% 的同学。
@@ -0,0 +1,82 @@
# 鱼皮的 AI 指南 - 2、AI 实用工具
> ⭐️ 推荐观看视频版:[https://www.bilibili.com/video/BV1i9Z8YhEja](https://www.bilibili.com/video/BV1i9Z8YhEja/)
如今 AI 相关的工具百花齐放,像我也精心整理过几十个主流的 AI 工具,覆盖 AI 对话、写作、图像、视频、音频、办公、编程等各个应用场景。
![](https://pic.yupi.icu/1/1743562426248-d0c54b5b-eae0-452a-81e7-1d81eda4295b.png)
哇,这么多工具,看得眼都花了!不过别担心,我们不必都去学习。
下面我会着重为大家分享在程序员日常工作中非常实用的一整套工具链,如果你还不满足,想学习更多工具,可以看看我 [免费开源的 AI 知识库](https://github.com/liyupi/ai-guide),里面还有很多 AI 使用技巧、行业资讯、应用场景、资源干货的分享哦。
![](https://pic.yupi.icu/1/image-20250402113043945.png)
### 1、开发类工具
#### 日常问题解决与知识搜索 - AI 对话产品
一些简单的问题和内容搜索可以直接使用 AI 对话产品来搞定,比如 DeepSeek、元宝、豆包、通义千问、文心一言、Kimi、GPT、Claude。像我自己一般会同时打开好几个网站一起用,挑选最合适的回答。觉得麻烦的话,也可以尝试下网友自制的 [聚合 AI 应用](https://botgroup.chat/),能直接在一个聊天框里和所有主流大模型对话。
![](https://pic.yupi.icu/1/1743562538451-67f6a7c2-bfeb-4138-a36e-20b8116b985b.png)
#### 小项目与新项目开发 - Cursor
如果要开发小项目或新项目,我建议使用 Cursor,一款专为编程打造的 AI 工具。新建一个文件夹,打开 AI 对话框,选择 Agent 智能体模式和大模型,然后输入一段提示词,接下来只需默默等待,AI 就会自主帮你生成一个完整的网站,真的一行代码都不用写!
![](https://pic.yupi.icu/1/1743562626421-7c4df1cd-e601-4fb5-9afe-bfef87905cdf.png)
这也就是为什么现在突然有了那么多奇奇怪怪大开脑洞的应用,像我之前分享过的什么赛博拉屎,有了 Cursor,人人都能搞网站了。
#### 老项目与大项目维护 - AI IDE 插件
不过对于老项目或者大项目的开发,AI 更适合作为辅助,我会选择在主流开发工具(比如 VSCode、JetBrains IDE)中安装插件来使用 AI,比如智谱 CodeGeex、JetBrains Assistant、通义灵码、GitHub Copilot 等。
![](https://pic.yupi.icu/1/1743562734642-1d70691b-4a41-485a-8085-0c01fd6c2662.png)
这些工具的使用方式都差不多,可以将项目代码作为上下文信息,生成补全代码、分析错误信息改 Bug、解释代码、生成单元测试、生成提交信息等等,全部在 IDE 内完成,不用来回跳转到其他 AI 产品,开发效率会更高。
![](https://pic.yupi.icu/1/1743562794206-77f048df-07d5-48ce-a810-528df90727ac.png)
#### 其他开发场景
日常开发一般使用上面这些工具就够了,如果你有一些特殊需求,也可以使用对应的 AI 工具来解决。
想更高效地管理数据库,可以使用 [Chat2DB](https://chat2db-ai.com/),借助 AI 一句话完成数据管理、SQL 生成、数据分析和可视化。
![](https://pic.yupi.icu/1/1743562852453-276ddd5a-eafa-4372-aea8-2815030f0cef.png)
想对 API 接口进行测试,可以使用 [PostMan](https://www.postman.com/),借助 AI 快速生成不同场景下的测试用例和接口文档。
![](https://pic.yupi.icu/1/1743562906402-76a50cc8-844c-4332-aff1-d5124af52e67.png)
想提交代码或部署项目,可以使用 [Warp AI](https://www.warp.dev/warp-ai),自动帮你把自然语言转换为正确的命令并执行,再也不用记忆复杂的命令,简化了终端操作。
![](https://pic.yupi.icu/1/1743562956833-6e136aeb-43bb-4330-9b9d-5e64685a5349.png)
### 2、写作类工具
程序员的工作除了开发之外,也离不开写文档和作图。
#### 写作与文档编写 - 语雀 AI
团队协作文档我用的比较多的还是语雀,本身功能就比较丰富,Markdown 语法写文章、嵌入画板等工具、一键进入演讲模式等等。现在它内嵌了 DeepSeek 大模型和 AI 助手功能,可以帮你快速完善丰富指定内容、改写口吻、总结转写内容,做笔记也是比较合适的。
![](https://pic.yupi.icu/1/1743563052462-1f41204b-cdc5-442a-b19a-303b3268830a.png)
#### 作图 - 豆包 + Mermaid
程序员在写技术文档时,一般会通过各种流程图、架构图来让文档更好理解,看起来也更高大上。有了 AI 后,很多图例不用自己手绘了,我可以直接把作图的信息提供给豆包或者其他 AI,让它生成 Mermaid 文本作图语法,接下来就可以直接下载图片、或者把生成的代码放到 Mermaid 渲染工具中,就搞定了,非常方便。
![](https://pic.yupi.icu/1/1743563192886-178809e5-33de-4da0-b5da-f77961433a9c.png)
值得一提的是,现在有些 AI 大模型比如 [Gemini](https://gemini.google.com/) 已经原生支持多模态能力,可以直接生成图文混排的文章,再发展发展估计能直接根据代码生成有图有文的技术方案了吧。
------
OK,常用 AI 工具分享完了,看到这里,你应该就超过了 80% 的同学。
@@ -0,0 +1,73 @@
# 鱼皮的 AI 指南 - 3、AI 编程技巧
> ⭐️ 推荐观看视频版:[https://www.bilibili.com/video/BV1i9Z8YhEja](https://www.bilibili.com/video/BV1i9Z8YhEja/)
其实现在很多程序员朋友对 AI 还是持怀疑态度的,觉得 AI 是不是只能做点儿小网站、小项目。我之前也是这么想的,直到我纯用 AI、完全不写代码地做了一个有几万行代码的大项目,我才发现 AI 的进化,远比我的想象更可怕。
当然,想用 AI 做大项目,还是有很多技巧的。为啥使用相同的 AI 工具,有同学能做出来网站,有同学只能做出来一堆 Bug 呢?这一部分,我们就来解决一个问题 —— **如何让 AI 生成的代码更准确?**
### **1、优化 Prompt**
Prompt 的质量直接决定了 AI 生成代码的准确性,也正因如此,才有了 Prompt 工程的概念、市面上才出现了提示词工程师这个岗位。
首先我们要掌握最基本的 Prompt 优化技巧,比如明确 AI 的角色、提供具体的细节要求、拆解任务、提供示例等等,这里 [智谱 AI 开放平台的文档](https://open.bigmodel.cn/dev/guidelines/LanguageModels) 总结得不错,大家可以学习下。
![](https://pic.yupi.icu/1/1743563253132-91a453b7-b090-4258-89de-aa98da404a30.png)
此外,我更建议先把自己手写的 Prompt 扔给其他 AI,让它帮我生成一段质量更高的、结构化的需求文档,再喂给 Cursor 去生成网站,效果会更好。
完整的需求文档通常包括:
- 明确项目背景和目标
- 详细列出功能要求和技术栈
- 指定代码风格和架构模式
- 提供示例和参考资料
- 明确限制条件和边界场景
### **2、复杂项目的生成技巧**
对于复杂的项目,想一步到位是不现实的,可以采用分步迭代的策略:
1. 先利用 Cursor 的 Agent 模式 + 高级推理模型生成基础项目框架,暂时不管功能好不好用,确保能够运行项目即可
2. 划分模块和功能点,依次向 AI 提问,逐步实现核心功能并验证是否可用。
3. 在保证不影响功能的前提下,优化实现细节。
听起来很简单,但实际操作时,大家经常会遇到 AI 输出的内容驴头不对马嘴、生成了一个新功能后原来的功能就不能用了、改了一个 Bug 又来 3 个 Bug 的情况。怎么办呢?
教你几招:
1)项目模块化。由于 AI 的脑容量不大,能接受的上下文是有限的,随着你的项目信息量不断增大,它有可能忘记之前的信息,导致生成的代码错误。所以我们要把项目的功能尽可能隔离开,把一个大项目分割成多个小项目,让 AI 生成某个功能时只需要关注一小部分上下文,得到的结果会更精准。
举个例子,开发一个电商系统,可以把商品管理模块独立出来,当需要 AI 生成添加商品功能的代码时,只需要提供像商品表的字段设计、添加商品的业务逻辑规则,不需要把支付结算、用户会员等关联不大的功能作为上下文提供给 AI。
2)限定修改范围。AI 生成的代码没有那么可控,经常改 A 功能的同时把 B 功能也顺带修改了。这个问题很好解决,只要在提示词中限定修改范围即可,比如:
```markdown
仅修改 services/order.java 中的 CreateOrder 方法:
1. 添加分布式锁防止超卖
2. 保持现有日志格式
3. 不要改动其他文件
```
3)抽象和复用。假如我们要让 AI 生成 2 个布局一模一样的页面,它有的时候会很死板,生成完页面 A 之后,复制一遍页面 A 的代码来生成页面 B。这样非常不利于大项目的生成和维护,以后 AI 改了页面 A,说不定页面 B 就忘了改,跟人来开发一样。所以我们需要留个心眼儿,适当地告诉 AI:请帮我抽象 XX 页面、XX 代码为可复用的组件。这样也能减少整个项目的代码量,也有助于减轻 AI 上下文记忆的负担,让生成结果更准确。
4)版本控制。建议利用 Git 版本控制工具对代码进行管理,每正确生成一个功能后都提交一次版本,在每次 AI 生成新代码之后人工对比一下改动的文件,出了问题也能快速还原到之前的版本,防止代码丢失。
![](https://pic.yupi.icu/1/1743563352611-61418c68-7c48-4bdd-8d97-941f40b9f98d.png)
### **3、其他技巧**
掌握了上面这些,是完全可以利用 AI 生成复杂大项目的。还有一些其他小技巧,大家自己看一看就好:
1. 注意操作系统:AI 更喜欢 Linux 或 Mac 系统的终端,执行命令的能力更强。如果使用 Windows 系统,可以通过安装 Linux 子系统(WSL)来替代自带的终端。或者在和 AI 对话的上下文中明确告诉它使用 Windows 系统的终端命令,否则可能 AI 给的很多命令都是无法运行的。
2. 人工控制:AI 有时会因缺乏关键上下文信息、或者自身能力的不足而陷入循环,这时就有必要人工介入了。可以尝试手动指定上下文、更换 Prompt 来引导 AI。
3. 多元 AI 协作:不同 AI 大模型擅长不同任务,如果单一大模型无法正常完成工作,可以利用其他大模型生成 “教 AI 做事的方法和指令”,增加解决问题的可能性。
------
OK,AI 使用技巧还是挺多的,建议大家可以多去练习练习,看到这里,你应该就超过了 90% 的同学。
@@ -0,0 +1,171 @@
# 鱼皮的 AI 指南 - 4、AI 编程技术
> ⭐️ 推荐观看视频版:[https://www.bilibili.com/video/BV1i9Z8YhEja](https://www.bilibili.com/video/BV1i9Z8YhEja/)
最后这部分最重要,作为程序员,咱们不光要会用 AI 工具、能利用 AI 开发项目,还要能够自主开发 AI 项目,把 AI 的能力接入到自己的项目中。
有句话说得好:**AI 时代,所有的传统业务都值得利用 AI 重塑一遍。**
所以现在很多公司都在招能够开发 AI 项目的程序员,这也是我们的机会。那么我们要学习哪些知识和技术,才能成为企业招聘的香饽饽呢?
### 1、AI 开发框架
首先从技术角度出发,我们要学习主流的 AI 开发框架,比如 Spring AI、LangChain4j 和 LangGraph。
[Spring AI](https://docs.spring.io/spring-ai/reference/getting-started.html) 和 [LangChain4j](https://docs.langchain4j.dev/intro) 的作用是类似的,都提供了很多现成的方法来帮我们提高开发 AI 应用的效率。比如快速对接大模型、保存会话上下文、对接向量数据库实现 RAG 等等。
![](https://pic.yupi.icu/1/1743563460857-95800757-867c-4e8a-ba7c-dd490d09fcbd.png)
区别是 Spring AI 更容易和主流 Java 开发框架 Spring 集成,上手难度较低;而 LangChain4j 更灵活,更适合开发复杂的智能体。比如在开发一个智能文档分析系统时,利用 LangChain4j,智能体能够自动读取文档内容,调用搜索引擎获取相关背景知识,然后根据任务需求,将文档信息与外部知识结合,生成分析报告。
不过我的建议是,二个都要学,先从 Spring AI 学起,再学 LangChain4j 会更简单。
[LangGraph](https://www.langchain.com/langgraph) 框架会更复杂一些,它用图的结构来组织和管理 AI 相关的工作流,适合构建有状态、多代理的企业级 AI 大项目。打个比方,我们有多个 AI 智能体,分别负责生成文字、生成图片、组合文字和图片,那么 LangGraph 像是负责人,可以安排这些智能体的工作顺序,一起搞大事。
![](https://pic.yupi.icu/1/1743563530213-250ec646-6247-4b8a-9c5f-f6f642a9652c.png)
用一个表格来总结这几种技术:
| 场景 | 推荐框架 | 优势 |
| ------------- | ----------- | -------------------- |
| Java 企业应用 | Spring AI | 无缝集成 Spring 生态 |
| 智能体开发 | LangChain4j | 完整 Agent 工具链 |
| 复杂工作流 | LangGraph | 可视化编排 |
### 2、AI 集成
开发 AI 应用的前提是要有大模型,但是大模型要消耗算力才能运行,算力就是金钱,从哪儿搞来大模型呢?
2 种方法,使用 AI 云服务、或者本地部署大模型。
#### AI 云服务
AI 云服务就是其他企业为我们部署了 AI 大模型,通过 API 接口的方式提供给我们使用,按量计费。
比如阿里云百炼、火山引擎、硅基流动、Open AI 等等。
![](https://pic.yupi.icu/1/1743563631799-46ff94d5-d51b-4dc5-b6cf-dec28bdcdb39.png)
咱们程序员需要重点掌握的是:
1. 如何通过 API 接入云服务?
2. 如何使用 AI 云服务来创建智能体和配置参数?
3. 如何选择合适的云服务?这就需要关注各家云服务的计费模式和服务质量
4. 如何更低成本、更稳定地使用云服务?这就需要我们学习 Prompt 工程和高可用技术
#### 本地部署大模型
本地部署大模型对于很多企业来说也是刚需,数据无需上传至云端,能够有效保障数据的安全性和隐私性,尤其适用于医疗、金融等对数据安全极为敏感的行业。
本地部署大模型其实并不难,只需要使用 [Ollama 工具](https://ollama.com/) 就可以一键部署各种主流的开源模型。
![](https://pic.yupi.icu/1/1743563719547-bbed1c54-d1f1-496f-afc2-d755c3538732.png)
唉,但部署大模型的难度不在于技术啊,主要是没算力啊!不然我也给我们团队的 [编程导航](https://codefather.cn/) 和 [面试鸭](https://www.mianshiya.com) 都来一套鱼皮大模型了。
### 3、AI 领域业务
企业中的 AI 业务开发,可不仅仅是来个 AI 对话就够了,咱们还要掌握几种更复杂的业务开发,比如 RAG 知识库、多模态、MCP 服务、ReAct 智能体。
#### RAG 知识库
很多公司都有属于自己的业务知识和文档,会构建自己的问答系统或客服,这就要用到 RAG 检索增强生成技术。先通过文本嵌入模型,将企业各种文档转化为向量,存入向量数据库;当用户提问时,系统在向量数据库检索相关向量数据,找到最相似文档片段,和问题一起输入大模型处理。这样一来,大模型能够基于企业真实数据作答,更准确贴合实际。
![](https://pic.yupi.icu/1/1743563751814-4123230c-c4b8-458f-bf8b-070c7550dd54.png)
关于 RAG 能学的知识可太多了,比如主流的向量数据库 Milvus 和 PGVector、文档的抽取 / 转换 / 加载、索引的构建、查询策略的优化等等。**这也是 AI 企业面试的重点!**
#### 多模态
多模态也是主流的 AI 业务场景,即融合文本、图像、音频、视频等多种不同类型的数据模态,从而提高产品使用的易用性,做出更多有创意的功能。
比如做个智能导购系统,顾客既可以输入文字描述想要的商品,系统也能识别顾客上传的商品图片,甚至可以理解顾客通过语音提出的购物需求。系统会将这些来自不同模态的数据进行整合处理,在商品数据库中精准匹配符合要求的商品,并将结果反馈给顾客。
![](https://pic.yupi.icu/1/1743563981663-8c9f4746-03dc-4b32-8477-ba9a9042922c.png)
想开发多模态应用,咱们要学习模态转换技术,比如文本转语音(TTS)、语音转文本(STT)、光学字符识别(OCR)等,不过这些都有现成的工具库或者云服务,掌握调用方法就行。还可以通过 Spring AI、LangChain 等 AI 开发框架调用不同模态的大模型,降低开发难度。
![](https://pic.yupi.icu/1/1743563810137-00b86ee7-2e01-44fd-9c1d-8f4198ef59ee.png)
#### MCP 服务
MCPModel Context Protocol,模型上下文协议)可以理解为提供给 AI 的各种服务,AI 利用这些服务能够实现更强大的功能。
![](https://pic.yupi.icu/1/1743563832927-7a2df71f-acc1-47c4-9135-e7d888749dbc.png)
如何在项目中接入别人的 MCP 服务,来增强自己的项目能力;以及如何开发自己的 MCP 服务,让别人的项目使用,都是必须要学习的。现在使用 Spring AI 等开发框架就可以开发 MCP 服务,而且甚至有高手做了个 [网站](http://mcpify.ai/),能够一句话创建自己的 MCP 服务,这真的是泰裤辣。
![](https://pic.yupi.icu/1/1743563865750-bbd02b74-2a56-49a9-963f-e633c1484fe5.png)
#### ReAct 智能体
ReAct 是一种构建智能体的开发范式,目的是打造能够依据推理结果自主采取行动的智能体。
它的开发过程会涉及到任务规划、工具调用、交互 I/O、异常处理等知识。尤其是工具调用,可以通过 Function Call 或 MCP 实现像天气查询、文件读写、网页运行、信息检索、终端命令执行等功能。
![](https://pic.yupi.icu/1/1743563922663-0096045d-8a99-4202-b30d-df77a341e697.png)
就拿开发视频网站为例,用户说了 “帮我开发一个 Dilidili 视频网站并部署上线” 的指令时,智能体首先会深入理解任务内容,通过推理梳理出一系列执行步骤,包括明确需求、设计方案、搭建框架、生成代码、部署上线等。接下来,智能体就会调用相应的工具来执行这些行动。如果执行过程中遇到问题,还会询问我们的意见,重新推理并及时调整行动方案。
![](https://pic.yupi.icu/1/1743564028474-638e6414-9a22-4350-80f3-7bf174dd0f77.png)
### 4、AI 工具链
最后就是我们开发 AI 项目时可能会用到的一些平台、工具和类库了。
#### 低代码平台
比如主流的低代码 AI 开发平台 [Dify](https://dify.ai/),可以让我们通过拖拉拽的方式构建自己的 AI 智能体,创建知识库并导入自己的文档,搭建复杂的工作流等等。就哪怕你不会写代码,都能用它搞出复杂的 AI 应用。
![](https://pic.yupi.icu/1/1743564064922-03f6365b-a712-47d9-be55-4867b848a269.png)
#### 工具库
还有一些开发 AI 智能体时会用到的工具库,比如:
- Apache Tika,功能强大的文件解析器工具库,支持解析 PDF、Word、Excel、PowerPoint 等各种文档,然后提供给 AI 作为知识。
- Playwright,用于模拟浏览器行为的工具库,AI 需要运行网页、抓取网页数据、自动化测试时,它都能派上用场。
- JSON 格式解析库 GSON 和 Kryo
- HTML 文档解析库 jsoup
这些类库基本没什么学习成本,要用的时候看文档就好了。
#### 部署工具
项目最终是要部署上线的嘛,所以我们还要掌握高效的部署工具,让 AI 应用从开发环境顺利过渡到生产环境,为用户提供稳定服务。
如果不在意价格、追求稳定的话,还是优先选择大厂提供的云服务来部署项目。但如果是个人学习使用、想快速上线自己的 AI 小应用,可以试试下面这些平台:
- [Vercel](https://vercel.com/):适合前端应用的部署平台,支持自动构建、在线浏览、CDN 分发,而且还免费提供可访问的域名
- [Sealos](https://sealos.io/):云原生应用管理平台,支持 Kubernetes 集群管理,为 AI 应用提供容器化部署环境,适合需要弹性伸缩的 AI 服务
- [Railway](https://railway.com/):能让开发人员轻松部署 Docker 容器,无需操心服务器配置与运维,且自带自动化构建工具、环境管理能力等
当然,想快速部署服务,上面提到的 Docker 容器化技术也是必须要学习的,就像 APP 的安装包一样,能够轻松分发和部署你的应用程序。
![](https://pic.yupi.icu/1/1743564338228-ffc55f7b-7bcd-40df-a10b-4accfb666379.png)
其实我有一种假设,如果 AI 足够稳定、并且一句提示词就能生成完整应用的话,是不是可以直接根据 Prompt 来部署项目啊。扯远了扯远了,当我没说吧~
------
怎么样,要学的东西还是挺多的吧,有没有感觉信息量爆炸。别担心,上面这些都是实践,咱还得学一些理论呀,比如某个框架的底层原理、调优技巧、算法实现等等。不过真的别担心,我也在持续学习这些内容并且会持续分享给大家,以上我提到的东西,在我后续的 [项目教程](https://www.codefather.cn/course) 中,都会讲到,期待的话可以关注一下。
## 尾声
OK,以上就是鱼皮 AI 指南的内容,我觉得能有 1% 的同学看完就不错了。
如果你问我 AI 会淘汰程序员么?我的答案仍然是 “会”。因为程序员本身就是需要持续学习和实践来保持竞争力的,只要大家能够学会我提到的这些知识,[多关注 AI 的前沿资讯](https://github.com/liyupi/ai-guide),相信 AI 不会抢走咱们程序员的饭碗,而是成为咱们改造世界的杠杆。
在这里也推荐一下我们免费公开的 `AI 知识库`,汇总收集了最新最全的 DeepSeek 知识,帮助大家更好地适应 AI 时代的到来。
鱼皮的 AI 知识库:[https://ai.codefather.cn](https://ai.codefather.cn/)
里面除了各种教程资料外,也重点给大家分享了很多 AI 工具的具体应用场景,比如接入办公软件提升效率,帮你做自媒体,AI 批量制作视频等。希望帮助大家举一反三,找到新的思路。
+5 -1
View File
@@ -28,13 +28,17 @@ permalink: /
## 内容导航
### [鱼皮的 AI 指南](/ai/#鱼皮的-ai-指南)
AI 时代,程序员要学什么才能不被淘汰呢?这个硬核指南给你答案。带你快速了解 AI 核心概念、AI 常用工具、AI 编程技巧、AI + 编程技术,走在时代的前沿。
### [AI 项目教程](/AI项目教程/)
用 AI 做开发原创项目教程,持续更新!带你快速实战 AI 项目的开发流程,紧跟时代前沿。
### [关于 DeepSeek](/ai/#关于deepseek)
当下最火的 AI 工具 DeepSeek 到底是什么?它有哪些核心功能和优势?你了解它的发展历程和创始人团队吗? 全面了解关于 DeepSeek 的基础知识。
当下最火的 AI 工具 DeepSeek 到底是什么?它有哪些核心功能和优势?你了解它的发展历程和创始人团队吗?全面了解关于 DeepSeek 的基础知识。
### [DeepSeek 使用指南](/ai/#deepseek使用指南)