旧内容迁移到新系统，哪些信息必须优先保留

旧内容进入新系统时，先保留什么

那次我在做微博历史内容的迁移。几千条微博，文字、图片、评论、转发关系，要搬到新的内容管理系统里。

第一反应是：全搬。数据量大，但机器能跑，让 Agent 批量处理就行。但动手之前，我停了一下。

搬完之后这些内容还能用吗？能用多少？哪些才是真正值得保留的？全搬的成本不只是存储和迁移时间——搬进来的大量低价值内容会污染新系统的内容结构，让后续检索和推荐变得困难。你花了三天搬了三千条微博，但新系统里有两千条是日常碎片，真正有用的只有三百条。用户在新系统里搜索时，大量搜索结果被日常碎片淹没，有用的内容反而很难找到。

迁移不是搬运

迁移和搬运的区别在于：搬运是把所有东西从一个地方搬到另一个地方，形态不变；迁移是把有价值的东西从旧系统融入新系统，形态可能改变。

微博的内容有几种：原创思考、转发评论、日常碎片、互动记录。全搬的话，日常碎片和互动记录会占大部分体积，但它们在新系统里几乎没有独立价值。一个"今天吃了碗面"的微博搬到新系统里对任何人都没有信息增量。互动记录更没有独立价值——一百条点赞和收藏记录在新系统里没有任何用途。

转发评论有上下文依赖，脱离原微博后语义断裂——你转发了一条别人的微博并评论"这观点太绝了"，但搬到新系统后没有原微博，读者完全不知道"这观点"指的是什么。脱离上下文的评论不是信息，是噪声。

真正值得保留的是原创思考——那些有独立语义、有个人视角、有思考深度的内容。它们可以在新系统里独立存在，不需要原微博的上下文支撑。一条"今天突然意识到，时间管理的核心不是效率而是选择"的原创微博，搬到任何系统里都能被理解。即使脱离了原微博的时间线和互动背景，这条微博的核心观点依然清晰完整。

先保留什么，再迁移什么

我调整了迁移策略：不是按时间顺序全搬，而是按内容价值分层迁移。

第一层：原创长文和有独立语义的短思考。这些内容本身就是完整的，迁移后不需要补充上下文。它们占总量的不到二十分之一，但价值密度最高。先搬这一层，新系统立刻就有核心内容可用。

第二层：有个人视角的评论和回应。这些内容虽然依附于原始话题，但评论本身有独立观点，可以通过标注原始话题的方式保留。比如一条评论"这个观点我补充一下，关键不在方法论而在执行"，搬到新系统后标注原始话题的链接，读者可以通过链接回溯上下文。

第三层：日常碎片和互动记录。这些内容在新系统里没有独立价值，只在需要完整历史记录时才迁移。一个"今天吃了碗面"的微博，搬到新系统里对任何人都没有信息增量。

按价值分层的好处是：第一层迁移完，新系统就已经有核心内容可用。不需要等全部搬完才能开始使用。全搬的方案意味着"迁移完成才能用"，分层迁移的方案意味着"搬完第一层就能用"。前者可能需要好几天，后者只需要几个小时。在时间有限的情况下，先让系统可用比让系统完整更重要。

卡点提炼的方法

这次迁移卡点让我学会了一个通用方法，后来在 jianfei-plan 的 jp008 里固化了下来：

内容迁移前，先做价值分层，再按层迁移。 不是先搬再筛，而是先筛再搬。先筛的成本是花时间做价值判断，但省下来的迁移成本和后续清理成本远大于筛选成本。

具体判断标准有三个问题：

内容在新系统里能否独立存在？能 → 高价值，优先迁移。独立存在意味着不需要额外的上下文信息就能被理解。
内容是否依赖旧系统的上下文？依赖 → 需要标注或补充，次优迁移。标注意味着在迁移时附加上下文链接，补充意味着在迁移时添加解释性说明。
内容在新系统里有没有独立用途？没有 → 低价值，按需迁移。独立用途意味着内容在新系统里有明确的检索和推荐价值。

这三个问题不需要逐条检查——你只需要对内容类型做分层，而不是对每条内容做判断。原创思考整体是第一层，转发评论整体是第二层，日常碎片整体是第三层。分层效率比逐条判断效率高得多。

还有一个实际操作细节：分层迁移时，每一层要用不同的迁移策略。第一层原创思考直接迁移，不需要任何转换——原文照搬就行，因为它们本身就是完整的。第二层转发评论需要标注原始话题链接，迁移时要在每条评论后面附上原微博的链接。第三层日常碎片如果决定迁移，需要压缩存储——只保留文本内容，不保留图片和互动数据，因为这些在第三层内容里没有独立价值。

不做价值分层就开搬，等于用最大的成本搬运最少的价值。迁移的智慧不在搬运多少，在保留多少价值。先想清楚什么值得保留，再决定怎么迁移。顺序反了，效率也反了。