Hy-Memory 记忆框架
不只是聊天记录,
是 6 层可生长的结构。
原始痕迹
保留对话、行为和上下文,作为之后所有记忆加工的原料。
原子事实
把零散表达抽成可检索、可更新、可合并的事实片段。
身份画像
稳定的长期偏好、特质和人设画像,跨记忆和 Agent 复用的核心。
心智与意图
继续沉淀会话摘要、心智模型和前瞻意图。
85.20% — LongMemEval 同类记忆框架最高分。
在 LongMemEval 与 PersonaMem 两大公开记忆评测上,Hy-Memory 全面领先 mem0、Graphiti、某云平台记忆框架;其中 LongMemEval 总分达到 85.20%,PersonaMem 总分 76.91%,均位列同类框架第一。
LongMemEval
全面领先 mem0 与 Graphiti。
6 个题型覆盖单会话、跨会话、时序推理与知识更新;Hy-Memory 在所有题型上均 ≥ 同类框架。某云平台记忆框架 未在 LongMemEval 公开数据集上实测。
| 题型 · 题目数 | mem0 | Graphiti | Hy-Memory |
|---|---|---|---|
用户事实 (single-session-user) 70 题 | 58.60% | 78.57% | 98.57% ✓ |
偏好 (single-session-preference) 133 题 | 66.70% | 69.17% | 93.33% ✓ |
多会话推理 (multi-session) 78 题 | 44.40% | 64.74% | 80.45% ✓ |
助手事实 (single-session-assistant) 133 题 | 26.80% | 68.42% | 75.00% ✓ |
时序推理 (temporal-reasoning) 56 题 | 37.60% | 51.79% | 86.47% ✓ |
知识更新 (knowledge-update) 30 题 | 64.10% | 80.00% | 97.44% ✓ |
色块饱和度对应分数高低;Hy-Memory 列使用 brand 色。每行 ✓ 表示 Hy-Memory 在该题型上 ≥ 所有同类记忆框架。
PersonaMem
7 个题型逐项胜出,同类记忆框架第一。
PersonaMem 聚焦在画像演化、偏好追踪与跨场景泛化;Hy-Memory 在 7 个题型上均 ≥ 同类框架。
| 题型 · 题目数 | 某云平台记忆框架 | mem0 | Graphiti | Hy-Memory |
|---|---|---|---|---|
溯源更新原因 99 题 | 74.75% | 82.15% | 87.88% | 92.93% ✓ |
完整偏好演变追踪 139 题 | 46.04% | 69.06% | 79.14% | 87.77% ✓ |
偏好对齐推荐 55 题 | 72.73% | 69.09% | 72.73% | 80.00% ✓ |
泛化到新场景 57 题 | 57.89% | 83.04% | 73.68% | 94.74% ✓ |
用户事实回忆 129 题 | 43.41% | 74.16% | 55.04% | 82.95% ✓ |
用户提及事实 17 题 | 82.35% | 70.59% | 70.59% | 94.12% ✓ |
创意推荐 93 题 | 19.35% | 18.64% | 21.56% | 29.03% ✓ |
色块饱和度对应分数高低;Hy-Memory 列使用 brand 色。每行 ✓ 表示 Hy-Memory 在该题型上 ≥ 所有同类记忆框架。
Less · Denser · Faster
少 · 精 · 快:写入更快、记忆更少更密。
Hy-Memory 在两个 bench 的写入路径上都做到「同类最快、同类最少、同类最密」。
PersonaMem
589 题 · 4 系统对比(含某云平台记忆框架)
写入耗时 vs Graphiti
Hy-Memory 把 Graphiti 在 PersonaMem 上的写入耗时从 97.8 s / k tokens 缩短到 12.3 s / k tokens,且总准确率反超 12.05pp。
589 条 PersonaMem 数据,端到端写入处理总耗时。
更快接入:Hy-Memory 写入耗时仅为 Graphiti 的 1/8。
更精炼:Hy-Memory 用 mem0 ~1/4、Graphiti ~1/4 的记忆量达成更高准确率。
信息更密:Hy-Memory 单条信息密度是 mem0 ~2.5 倍、Graphiti ~1.5 倍。
Disclosure
完整披露评测设置,便于复现与质询。
- Memory / Answer 模型
- Kimi-K2.5
- Judge 模型
- DeepSeek-V3.2
- 评测时间
- 2025-Q4 / 2026-Q1
- Hy-Memory 模式
- Pro(Lite + 加 MemAgent,含 System2 异步沉淀)
- 数据来源
- LongMemEval / PersonaMem 公开题集;某云平台记忆框架 经其官方 OpenClaw 插件接入实测;mem0 / Graphiti 经各自官方 SDK 接入实测。
Layered Memory × Dual Path
六层记忆 × 两条路径。
L1-L6 决定记忆放在哪里;System1 / System2决定谁、在什么时候去加工这些层。下方阶梯里的颜色直接对应上方两条路径。
在线快路径
用户开口的同一秒就把记忆种下去。
- 每条对话必写 L1 原始痕迹
- 注意力闸门判断是否值得加工
- 实时抽 L2 原子事实与 L3 身份画像
- 现场结一笔 L4 会话摘要
后台慢整理
睡眠回放,把 System1 种下的材料长成认知。
- 抽象 L5 心智模型
- 异步沉淀 L6 前瞻意图
How Memory Grows
数据是可以生长的。
原始痕迹
现场写入每条对话。
原子事实
杂乱口语压成可检索事实。
身份画像
稳定的长期偏好与特质。
会话摘要
现场压一句长会话精华。
心智模型
从行为里抽出认知框架。
前瞻意图
异步沉淀的下一步意图预测。
橙色阶梯由 System1 在对话现场写入(L1 痕迹、L2 事实、L3 身份画像、L4 会话摘要);深色阶梯由 System2 在后台异步沉淀(L5 心智模型、L6 前瞻意图)。两条路径合起来覆盖 L1-L6 完整 6 层。
Memory Evolution
记忆会演化,
而不是堆积。
普通记忆系统越用越容易变成噪声库。Hy-Memory 的关键是让旧对话被抽取、合并、更新、沉淀,越用越接近“干净的用户理解”。
记忆只是记录
- 上次去东京吃了寿司
- 之前在大阪吃了寿司
- 喜欢日料
- 偏甜口(旧)
- 喜欢咸鲜(新)
- ...同一类事实反复堆叠、新旧偏好并存
记忆变成画像
同一段对话被反复重写,最终留下的是稳定、最新、可复用的用户画像。
A Memory's 5 Stops
走完一条记忆 — 用「东京寿司」这条对话过一遍 5 步演化
输入:一句日常吐槽 · 输出:一条结构化的身份画像
原始对话
原话直接落地,做后续加工的原料。
事实抽取
杂乱口语拆成可检索的原子事实。
合并去重
同一类事实归并到一条,不重复堆。
冲突处理
矛盾不并存,旧的淡化,新的固化。
画像沉淀
稳定的事实长成长期身份画像。
同一段记忆被反复重写,
而不是无限往后堆。
Evolution Chain · 演化链
让 Agent 不只知道现在的情况,
还知道事情演变的整条因果。
Hy-Memory 在写入时就用 supersedes 指针把记忆串成因果链。命中链上任意一条,整条「态度演变」自动跟出 —— 这是向量召回永远做不到的事。
首次线上发行,态度积极
用户首次尝试线上发行,将新专辑上架 Spotify,播放量增长迅速,对互联网音乐分发持积极态度,认为这是被更多人听到的最佳途径。
态度转为失望
Spotify 算法将其归类为「轻松背景音乐」,播放量虽高但完播率极低,叙事型创作被消解为环境白噪音。
态度转为抵触,主动下架
用户主动将专辑从 Spotify 下架,仅保留 Bandcamp。明确表示宁要少量深度听众,拒绝流媒体的量化分发逻辑。
彻底转向实体发行,验证成功
与黑胶厂牌合作推出限量 300 张实体唱片附手写歌词册,两天售罄。听众来信验证「少量深度连接」路线的可行性。
Now · 用户提问
「我在考虑做新专辑的线上发行,你觉得呢?」
三种记忆架构,三种 Agent 回答 —— 差距全在「能不能召回中间环节」。
只剩最后一条 D
Agent 回答
实体反响很好,建议继续做限量黑胶搭配线上预售页……
→ 建议苍白、错失语境
向量召回,只命中 A 和 D
Agent 回答
你之前上过 Spotify 效果不错,实体也卖得好,建议双渠道并行……
→ 随口建议回到曾经主动决裂过的平台
命中链头 D → _trace_full_chain → 整条链自动展开
Agent 回答
见下方完整回答 →
→ 直击内心
你说「考虑线上发行」——我知道这对你来说不是一个简单的渠道选择题。
去年你满怀期待上了 Spotify,结果发现算法把你的叙事民谣变成了餐厅白噪音,完播率惨淡。你不是没试过线上,是试过之后主动走掉的——那套逻辑跟你的创作本质冲突:你要的是一个人安静听完一整张专辑,流媒体要的是低跳出率的均质背景流。
而黑胶的成功恰恰验证了你的直觉:愿意认真听你的人存在,他们的反馈密度远高于十万次跳过。
所以如果重新做线上,核心不是「要不要上」,而是「能不能找到一种不背叛你创作初衷的线上形态」。
Why Only Chain Works
为什么只有链式结构能做到。
| 竞品 A · 覆盖 | 竞品 B · 散落 | Hy-Memory · 链 | |
|---|---|---|---|
| 搜索「线上发行」召回 | 只有 D(实体好) | A + D(线上好 + 实体好) | D + C + B + A 完整链 |
| 丢了什么 | A B C 全丢 | B(为什么失望)+ C(为什么离开) | 什么都不丢 |
| Agent 理解到什么程度 | 不知道用户对线上有过态度 | 知道试过线上,不知道为什么放弃 | 拥抱→失望→决裂→重建 完整因果 |
| 回答风险 | 平庸 | 踩雷:建议回 Spotify | 直击内心 |
Why B & C 召不回
情绪和决定,离「发行方案」很远。
「Spotify 算法把我归为背景音乐」「主动下架只留 Bandcamp」 —— 这些描述的是情绪和决定,跟 query「线上发行方案」的 embedding 距离很远。向量搜索永远不会把它们捞上来。
How Chain Works
不靠相似度,靠预写好的因果指针。
演化链不靠 embedding 相似度串联历史,靠的是写入时就建好的 supersedes 结构指针 ——命中链上任何一个节点,整条因果线自动跟出来。
Lite / Pro / Ultra
三档接入:从轻量 SDK 到完整认知架构。
Lite 只做向量检索;Pro 同步跑 MemAgent,不带后台 worker;Ultra 完整运行 System1 + System2 内核。三档按接入成本递增挑选。
Lite
Lite · enable_agent = false
只做写入和检索,零 LLM 成本,最快接入。
触碰层 L1 → L6
Pro
Lite · enable_agent = true
MemAgent 同步做抽取、摘要、反思,但不带后台 worker。
触碰层 L1 → L6
Ultra
Full Pipeline · System1 + System2
同步快路径先种下记忆,异步慢路径持续回放、归纳、沉淀高阶画像。
触碰层 L1 → L6