数据合成：让人工智能大模型变聪明的「食材」制作秘诀

你有没有想过，那些动辄参数上千亿的人工智能大模型，到底是怎么学会「思考」的？如果把训练大模型比作是做一顿饭，那数据就是食材。没有好的食材，再厉害的厨师也做不出美味佳肴。这些年，随着公开互联网数据逐渐被「挖空」，数据合成这个话题变得越来越火。今天就想跟你聊聊，我了解到的一些关于人工智能大模型训练数据构建的实用技巧。

为什么数据合成这么重要？说白了，互联网上能被用于训练的高质量数据基本已经被翻了个底朝天。各大科技公司、研究机构都在抢这些「优质数据」，而真正有价值的高质量文本、代码、知识库数据就那么多僧多粥少。在这种情况下，学会「自己造数据」就成了关键技能。这不是偷懒，而是一种前瞻性的战略布局。

数据合成到底是怎么回事

简单来说，数据合成就是用人工或者半人工的方式创造出新的训练数据。你可能会问，机器生成的数据再用来训练机器，这不是自己骗自己吗？这个问题问得很好，但实际情况比你想的要复杂得多。

数据合成的核心思路是通过对现有数据的深度理解和重组，生成具有新特但保持原有数据分布特征的新样本。比如你有一万篇医学论文，通过数据合成技术，可以生成五万篇新的医学论文，这些新论文在专业术语使用、逻辑结构、表达方式上都与真实的医学论文高度相似，但对模型来说却是全新的学习素材。

高质量的数据合成需要遵循几个基本原则。首先是分布一致性，合成数据必须服从原始数据的统计分布规律，否则会让模型学到错误的信息模式。其次是多样性，合成数据要覆盖各种边缘情况和长尾场景，帮助模型提高泛化能力。最后是标签准确性，如果是需要有标签的数据，合成过程中必须保证标签的正确性，标签错了，整条数据就废了。

主流的数据合成方法与技术路径

基于大语言模型的生成式合成

这是目前最主流也最实用的方法。简单来说，就是用一个已经很强的大模型来生成训练数据。比如你有一个效果不错的基座模型，你可以给它一些种子样本或者提示词，让它生成大量风格相似但内容全新的新样本。

这个方法的优势在于灵活性高、成本相对可控。你可以通过精心设计的提示词来控制生成数据的质量、风格、领域等各个方面。比如你要合成编程相关的数据，可以设计这样的提示词：「请生成一段关于Python数据处理的代码片段，要求包含注释，难度适中，代码风格简洁。」通过调整提示词，你可以精确控制生成内容的各个维度。

但这个方法也有明显的局限性。首先是模型 bias 问题，如果基座模型本身有某些倾向，生成的数据也会带有这些倾向。其次是质量天花板，生成数据的质量很难超过基座模型的能力上限。所以在实际应用中，通常需要配合其他方法来提升整体数据质量。

数据增强与改写技术

数据增强是一种更保守但也更稳妥的方法。它的核心思想是在保留数据核心信息的前提下，通过各种变换增加数据的多样性。举个例子，一句「今天天气真好，适合出去散步」，可以通过同义词替换、句式变换、语气调整等手段，变成「今天阳光明媚，出去走走是个不错的选择」或者「今天天气挺不错的，溜达溜达挺好的」。

在文本领域，常用的增强技术包括回译法（翻译成其他语言再翻回来）、掩码填充法（用模型预测被掩码的词语）、语法树变换法等。在代码领域，则可以利用代码等价变换、变量重命名、结构调整等技术来生成新的训练样本。

数据增强的好处是能较好地保持语义一致性，风险相对较低。缺点是变换空间有限，生成的数据多样性可能不够。所以通常作为其他合成方法的补充手段来使用。

基于规则与模板的合成

这是最传统但也最可控的方法。通过人工设计的规则和模板来生成结构化的数据。比如你要合成问答对数据，可以设计这样的模板：「{问题}的答案是什么？答案是{答案}。」然后填充不同的实体和属性，就能生成大量的问答数据。

这种方法在结构化数据领域特别有效。比如生成知识图谱的三元组数据、生成表格数据、生成结构化的日志数据等。它的最大优点是可控性强、质量稳定，缺点是灵活性差、难以覆盖开放域场景。

在实际落地时，规则方法往往和生成式方法结合使用。用规则方法来保证数据的基本结构和格式，用生成式方法来丰富内容的表达和多样性。这种混合策略往往能取得不错的效果。

质量控制：数据合成的生命线

说了这么多合成方法，但我想强调一点：合成数据的质量控制比合成方法本身更重要。再好的合成方法，如果缺乏严格的质量把控，产出的数据也是有害无益的。

首先要做的是自动化质量筛选。可以训练一个专门的判别模型来评估合成数据的质量打分。这个判别模型可以基于多个维度进行评估：语义连贯性、逻辑一致性、信息准确性、语言流畅度等。低于某个阈值的数据直接过滤掉。

其次是多样性去重。合成数据容易出现重复或者高度相似的问题，这会导致模型过拟合、训练效率下降。需要使用语义相似度计算方法（如余弦相似度、向量检索等）来检测和去除重复数据。

最后是人机结合抽检。自动化方法不可能覆盖所有问题，定期的人工抽检是必要的。可以建立一个抽检机制，随机抽取一定比例的合成数据进行人工审核，记录发现的问题模式，然后反馈到合成流程中进行针对性优化。

td>规则检查、逻辑推理验证

td>信息准确性

td>事实核查、知识库比对

td>多样性去重

td>向量相似度检索、哈希去重

质量控制维度	常用方法	处理优先级
语义连贯性	语言模型困惑度、流畅度评分	最高
逻辑一致性	高
高
中

实战中的经验与建议

聊了这么多理论层面的东西，我想分享几个实战中总结的经验心得。

第一，种子数据的质量决定合成数据的天花板。如果你用一堆低质量的样本作为种子，合成出来的数据质量也不会太高。所以在开始合成之前，一定要花时间准备一批高质量的种子样本。这些种子样本要覆盖目标场景的各个方方面面，难度层次也要有区分度。

第二，迭代优化比一次到位更重要。数据合成不是一蹴而就的事情，通常需要多轮迭代。第一轮可能只能解决基本的数据量问题，然后需要针对暴露出来的短板进行定向补充和优化。这个过程中，模型训练的效果反馈是最好的指引。

第三，合成数据不是越多越好。很多人有一个误区，觉得数据越多效果越好。但实际上，低质量的合成数据反而会损害模型性能。关键是质量与数量的平衡点，需要通过实验来找到。

第四，要重视领域适配。通用大模型和垂直领域模型在数据合成策略上有很大差异。垂直领域（如医疗、法律、金融）的数据合成需要更强的领域知识支撑，可能需要领域专家的参与来设计和审核合成方案。

写在最后

数据合成这个领域还在快速发展中，每年都有新的方法和技术冒出来。作为从业者，我觉得保持学习和实验的心态很重要。Raccoon - AI 智能助手在构建高质量训练数据的过程中，也积累了不少实战经验。未来，随着合成数据质量评估技术的进步，以及生成式模型的持续进化，数据合成会成为人工智能发展中越来越关键的一环。

如果你正在或者准备开展数据合成相关的工作，我的建议是：不要追求一步到位的完美方案，先跑通整个流程，从实践中发现问题，然后针对性地优化。数据和模型一样，都需要在迭代中成长。

数据合成的人工智能大模型训练数据构建技巧有哪些