据介绍,LVMM 的长期视觉记忆有望在多个领域带来颠覆性的变化。 安防监控领域,核心挑战在于实现持续的身份识别。一个典型的案例是,在电视剧《我是刑警》的情节中,警方曾动员数百人通宵筛查监控视频以追踪嫌疑人。而借助 LVMM 系统,同类任务可通过 AI 自动观看并快速定位目标片段,甚至可对从童年到成年阶段的人物进行追踪,并极大提升效率。 沈俊潇还举例说道:“不同地区对危险的定义存在差异,例如美国各州对同一行为的判定可能截然不同,系统需借助长期学习以理解这些场景特征。” AI 助手与硬件方向,个性化是重要发展趋势。理想的 AI 助手应能理解用户所见所闻,从而更精准地响应需求。现有工具如 ChatGPT 虽智力表现突出,但在用户体验上常显得“不够贴心”,仍需用户频繁补充上下文,并且这些信息往往涵盖多模态内容。因此,发展具备多模态长期记忆能力的 AI 助手已成为明确的技术方向之一。据了解,Memories.ai 已与头部 AI 硬件公司展开合作,如 Rokid 和前魅族 CMO 李楠创立的 AI 硬件公司 Angry Miao。 媒体和教育领域,Memories.ai 正在与 BBC 等媒体以及相关公司展开合作,旨在将大量历史视频素材与其他多模态数据整合为动态的数据湖,以支持更高效的搜索与问答功能。 相册和视频管理应用中,长期视觉记忆同样至关重要。据介绍,Memories.ai 正在与三星展开合作,把 LVMM 部署到端侧手机上。拥有“记忆”意味着在数万张照片和视频中,能够通过自然语言精准检索特定的某个片段。对于视频创作者来说,该系统可构建专门的视频搜索引擎和文档引擎,并可实现快速自动剪辑。 此外,基于网络视频进行宏观趋势分析也成为可能,AI 可借此识别内容流行度规律、成因与传播特征,为创作与决策提供参考。 从更长远的角度看,该技术为构建人工智能的基础视觉记忆层奠定了重要基础。无论是能够追溯生活点滴的 AI 助手、通过观察世界学习的人形机器人、智能眼镜或可穿戴设备,还是真正具备视觉理解能力的下一代智能系统,都有赖于持续、稳定且高效的视觉记忆机制。
“不走寻常路”:从 14 岁出国读高中到硅谷创业
沈俊潇出生于江苏吴江,他始终秉持“选择大于努力”的信念,其人生轨迹也因多次“非同寻常”的选择而显得独特。他的第一个关键抉择是从镇小学转至市区初中就读,然而他并未止步,始终想去“更大的世界看看”。尽管中考成绩出色,14 岁的他仍凭借全国仅有两个名额的全额奖学金远赴英国攻读高中。 在剑桥大学,沈俊潇完成了从本科到博士的全程学习,博士阶段的研究聚焦于开发基于机器学习的用户交互意图推断模型,应用于光学透视头戴式显示器场景,师从佩尔·奥拉·克里斯滕森(Per Ola Kristensson)教授和比尔·伯恩(Bill Byrne)教授。在这一时期,人工智能技术的迅猛发展使他看到了实现“以技术提升人类效率”这一愿景的现实路径。 博士毕业后,沈俊潇加入 Meta Reality Labs 担任研究科学家。在该岗位中,他主要从事与时间序列分析密切相关的科研工作。他表示:“我此前从事了大量手势理解相关研究,而手势识别本质也属于时间序列问题。无论是手势识别、语义理解还是视频解析,这些研究方向在方法论上是一脉相承的。” 在多数企业集中于提升 AI“智力”之时,他选择了差异化的研究方向——专注于构建 AI 的“记忆”能力。然而,当前人工智能领域在长期记忆,尤其是对海量视觉信息进行结构化存储与有效利用方面仍存在诸多尚未突破的科学问题。 在这一背景下,沈俊潇及合作者率先从人类记忆的理论体系出发,系统探索了 AI 长期记忆的实现路径。人类智能依托智力与记忆两大支柱:当前 AI 的智力层面已广泛采用神经网络模型,其设计灵感本就源自对人脑结构的借鉴;而在记忆方面,团队致力于在“生物学合理性”(与人类记忆的相似程度)与“工程性能”(实际解决问题的效能)之间寻求平衡。 完全模拟人类记忆并不一定带来最优性能,而完全脱离生物启示的设计又往往难以契合复杂认知任务的需求。正如神经网络并未完全复制人脑,却在两者间找到有效平衡,沈俊潇与团队也以类似思路推进记忆研究——并非追求一对一的机械映射,而是以人类记忆机制为深层启发,构建更符合认知架构的 AI 记忆系统。 在沈俊潇作为通讯作者发表在预印本网站arXiv的一篇论文中,对此有比较清晰的阐述。相关论文题目为《人类启发视角:人工智能长期记忆综述》(Human-inspired Perspectives: A Survey on AI Long-term Memory)[1]。 该研究从人类记忆机制出发,探讨了 AI 长期记忆的存储、检索和遗忘机制,并提出了一个基于人类记忆理论的新型认知架构——自适应长期记忆架构(SALM,Self-Adaptive Long-term Memory),为未来 AI 系统的设计提供了理论基础。