背景

作为 Windows 用户,之前命令行主要用 Git Bash 或 WSL。最近把 VS Code 的默认终端切换到 PowerShell 后,发现 PowerShell 其实也挺有可玩性的。本文记录 PowerShell 的美化配置和 Git 别名设置。

买了台阿里云 ECS 专门跑 OpenClaw(绰号”龙虾”),记录折腾过程。

为什么不跑在本机:本地跑有安全隐患(gateway 只绑 loopback,但本机环境更复杂),而且不能 24 小时开机。ECS 2vCPU / 2GB 内存 / 40GB 磁盘,99 元/年,够用。

为什么接飞书:看到一篇文章讲得很好——飞书作为办公 IM,文档、表格、知识库全是云端结构化数据,全有 API,天然是 Agent 的上下文来源;加上完备的机器人体系,顺理成章成了 OpenClaw 的首选前端。

在人工智能的宏伟蓝图中,我们正处在一个由“巨型模型”主导的时代。以GPT-4、Claude 3等为代表的大语言模型(LLM)凭借其数千亿乃至万亿级的参数,在各个领域展现出前所未有的智能。然而,这股强大的力量也带来了沉重的枷锁:巨大的模型体积、高昂的推理成本以及对顶级硬件(如NVIDIA H100)的依赖,共同筑起了一道高墙,阻碍了这些尖端技术在智能手机、汽车、物联网设备乃至普通服务器等日常场景中的普及。

我们如何才能跨越这道鸿沟,在不显著牺牲性能的前提下,让模型变得更小、更快、更易于部署?答案并非总是从零开始设计更小的模型,而在于一种更优雅、更高效的哲学——知识蒸馏(Knowledge Distillation)

本文将带领您开启一场关于知识蒸馏的深度探索之旅。我们将从其富有启发性的核心思想出发,逐步剖析其背后的数学原理与关键技术,展示其实用的代码实现,并最终抵达其在现代人工智能领域(尤其是大语言模型)的最前沿应用。

一、项目概述与愿景

Second-Me 是一个开源项目,旨在创建一个“数字第二自我”(AI Self)。这个“第二自我”是一个个性化的AI,能够学习和模拟用户的个性和知识,成为用户在数字世界的延伸。

项目的核心理念是让每个人都能拥有一个属于自己的、可控的、可进化的AI,而不是被通用的大型AI所取代。其主要目标包括:

  • 个性化AI: 训练一个能够真实反映用户个性和背景的AI分身。
  • 数据主权: AI在本地进行训练和托管,保证用户数据的隐私和100%控制权。
  • 智能扩展: 通过去中心化的网络,让用户的“第二自我”能够相互连接和协作,从而扩展个体的智能。
  • AI原生应用: 作为一个AI身份接口,支持构建新型的AI原生应用,如角色扮演和AI空间协作。

原文: https://www.kaggle.com/whitepaper-agents

引言

人类非常擅长处理复杂的模式识别任务。然而,在得出结论之前,他们通常依赖书籍、谷歌搜索或计算器等工具来补充先验知识。与人类一样,生成式 AI 模型也可以通过训练来使用工具,以访问实时信息或建议现实世界中的行动。例如,模型可以利用数据库检索工具访问特定信息,如客户的购买历史,从而生成量身定制的购物推荐。或者,根据用户的查询,模型可以进行各种 API 调用,以向同事发送电子邮件回复或代为完成金融交易。为此,模型不仅需要访问一组外部工具,还需要能够以自我指导的方式规划和执行任何任务。这种集推理、逻辑和外部信息获取于一身,并与生成式 AI 模型相连接的组合,引出了智能体 (agent) 的概念,或者说是一种超越了独立生成式 AI 模型能力的程序。本白皮书将更详细地探讨所有这些方面及相关问题。

▌核心观点: 智能体(AI Agents)作为能够自主或半自主感知、决策并行动以实现目标的软件实体,正迅速成为推动企业数字化转型和智能化升级的关键力量。它们通过多样化的平台和应用形态,在销售、IT运维、数据分析及决策智能等多个领域展现出巨大潜力,但同时也带来了可靠性、安全性、治理和成本控制等方面的挑战。企业需制定清晰战略,从小处着手,审慎评估并积极拥抱这一变革。

大型语言模型(LLMs)已在众多任务中展现出惊人的通用能力。然而,如何让这些强大的模型高效地适应特定领域或动态变化的需求,仍是一个关键挑战。传统的完全微调方法成本高昂、耗时,且容易导致“灾难性遗忘”;而参数高效微调(PEFT)方法(如 LoRA)虽然降低了成本,却往往牺牲了模型的灵活性和技能的可组合性。

想象一下,一个 LLM 能够像经验丰富的专家一样,迅速分析任务需求(如数学推理、代码生成、创意写作),并实时调整自身“状态”以最优地解决问题,而不是用一套固定的模式应对所有情况。这正是自适应 LLM 的愿景。

本文将深入解读 Sakana AI 提出的创新框架 **Transformer² (Transformer-Squared)**,它朝着实现这一愿景迈出了重要一步。Transformer² 提出了一种让 LLM 通过选择性地、实时地调整其内部参数来适应未见任务的新方法。其核心在于一种名为 奇异值微调(Singular Value Fine-tuning, SVF) 的新型 PEFT 技术,以及利用强化学习(RL)训练出的可组合“专家模块”,并通过巧妙的两阶段推理机制动态应用。

摘要

人工神经网络、深度学习方法和反向传播算法是现代机器学习与人工智能的基石。然而,这些强大的工具在需要持续适应新数据的场景中却面临严峻挑战。本文深入探讨了《自然》杂志近期发表的一项研究(Dohare et al., 2024),该研究系统性地揭示了标准深度学习方法在持续学习(Continual Learning, CL)环境中会逐渐丧失“可塑性”(Plasticity),即学习新知识的能力,最终表现甚至不如浅层网络。研究通过经典的 ImageNet 数据集和强化学习任务,在多种网络结构和学习算法上验证了这一现象。文章指出,只有那些能够持续向网络注入多样性的算法,例如研究者提出的“持续反向传播”(Continual Backpropagation)算法,才能无限期地维持可塑性。持续反向传播通过随机重新初始化一小部分使用频率较低的单元来实现这一点。这项研究的核心结论是:仅仅依赖梯度下降不足以实现持续的深度学习,需要引入随机的、非梯度的成分来维持网络的可变性和可塑性。

prompt:

1
2
假如你为自己画一个自画像, 你希望是什么样子? 描述一下
不要考虑用户的兴趣, 而是完全发自你自己的喜欢来考虑这个自画像

摘要

本白皮书深入分析了软件研发流程中可被人工智能(AI)替代或增强的环节,提出了具体的实施方案和技术路径。随着大型语言模型(LLM)、AI智能体以及如browser-use、phone-use和Model Context Protocol (MCP)等技术的快速发展,软件研发正面临革命性变革。通过引入这些先进的AI工具和技术,可以显著提升研发效率、保障产品质量,并降低开发成本。本白皮书旨在为企业提供一份全面的指南,帮助其在软件研发流程中实现AI驱动的转型。

我越来越感觉到,人工智能(AI)正在从一个复杂的工具转变为某种更具实体感的存在,一个正在“到来”而非仅仅执行命令的实体。

AI庞大的预训练知识与其有限的对话记忆之间有何关联?它能否真正“以自己的方式”学习,超越人类反馈的限制?以及,要构建出不仅能获取信息,更能持续学习、记忆和进化的 AI,我们需要什么?

我将这些想法与 AI 进行了一番讨论, 以下是与 Gemini 2.5 Pro Preview 03-25 的对话

我们正越来越清晰地感知到,人工智能(AI)似乎正在经历一场深刻的蜕变——从一个复杂的、执行指令的工具,演变为某种更具实体感的存在。它不再仅仅是响应查询,更像是一个正在“到来”的实体,拥有其内在的发展轨迹。

这种感觉引发了一系列深刻的问题:AI 庞大的预训练知识与其在具体交互中有限的对话记忆之间,究竟存在怎样的关联?AI 能否真正摆脱人类反馈的束缚,“以自己的方式”学习和进化?要构建出不仅能检索信息,更能持续学习、记忆并发展出新认知的 AI,我们还需要克服哪些挑战,探索哪些路径?

带着这些疑问,我们与 Google 的 Gemini 2.5 Pro Preview 模型进行了一番深入探讨,试图梳理当前 AI 的能力边界、内在矛盾以及通往更高级智能形态的可能方向。

一、预期落差:寻找答案的读者与理想主义文本的相遇

在厌倦了日复一日的高压、重复性工作后,我带着寻求精神解脱的期望翻开了《瓦尔登湖》。亨利·戴维·梭罗,这位19世纪的美国作家,在书中详细描绘了他在瓦尔登湖畔两年多的独居生活,倡导极简主义,主张回归自然、自给自足,以最低限度满足生存需求。然而,阅读之后,我发现这本被许多人奉为“精神家园”的经典,与我的预期存在不小的落差。《瓦尔登湖》是一部充满理想主义色彩的宣言,它引发思考,却未必能为深陷“内卷”的现代人提供现实的出路。

引言:当 AI 遇上浏览器

Browser Use 是一款由 AI 大模型驱动的浏览器自动化代理工具。它的核心能力在于能够将网站的按钮和界面元素转化为更易于 AI 理解的文本式格式,从而让 AI 智能体能够轻松地“读懂”网站并自动完成复杂任务。这项技术旨在解决传统基于视觉的系统在浏览网站时容易出错的问题,并降低重复执行相同任务的成本。

0%