20250309

谈谈 AI 时代的数据

拥有高质量数据集和明确规则体系的领域,往往更容易受益于 AI,并且发展更快。

为什么这么说?

  1. 数据的结构化程度高

例如,编程领域:代码本身是高度结构化的,遵循语法、逻辑和模式,错误也可以通过编译器或测试用例自动识别。这使得 AI 可以基于大量代码样本学习最佳实践,并生成高质量的代码。还有科学研究领域:实验数据、数学公式和物理定律都是高度结构化的,这为 AI 建立精确的预测和推理能力提供了良好的基础。

  1. 规则清晰,反馈机制明确

在编程中,AI 生成的代码可以直接运行并验证正确性,错误可通过调试和测试自动反馈给 AI 进行优化。 而在科学研究中,许多学科有成熟的实验方法和理论体系,AI 可以利用这些规律进行推理和创新,如 AlphaFold 在蛋白质结构预测中的突破。

  1. 高质量数据集的可获得性

编程领域有大量开源代码库(如 GitHub、Stack Overflow),AI 可以从中提取知识。科学领域则有丰富的开放数据库(如 PubMed、arXiv),为 AI 提供训练素材。

那些规则模糊、数据混乱或者依赖主观判断的领域,AI 进展往往较慢。

例如:

  • 法律:虽然法律文本清晰,但现实案例充满了模糊性和例外情况,判决依赖于上下文、法官的主观判断和社会文化背景,AI 很难精准推理。
  • 社会科学:心理学、社会学等领域的规律较难量化,很多研究结果依赖问卷、访谈,数据质量受主观因素影响大,AI 训练起来更具挑战。
  • 艺术与创意产业:尽管 AI 可以生成图像、音乐、文章,但要达到真正的原创性和深度,还需要突破很多模糊规则。

但是,我观察到一个现象:AI 现在可以从非结构化数据中自动发现规律,而不是仅仅依赖人类事先定义的规则。

非结构化数据的可用性已经大幅提升

  1. 文本数据的突破

以前 NLP 领域需要依赖结构化数据,如词典、语法树、标注好的数据集。但 LLM 出现后,大规模非结构化文本(维基百科、Reddit 讨论、开源代码等)已经足够让 AI 学习复杂的语言模式,而无需明确的语言规则。

  1. 视觉和音频领域的突破

以前计算机视觉需要大量人工标注的训练集(如 ImageNet),但今天的大模型(如 SAM、DALL·E、Sora)已经能够从非标注的图像、视频中自我监督学习,无需人工提供规则。

  1. 科学研究的非结构化数据利用

以往 AI 在科学研究中的应用主要集中在数值计算和已知公式推理(如材料科学、基因测序)。但现在,AI 可以从非结构化的论文文本中自动归纳科学理论。例如:AlphaFold 2 通过蛋白质结构的非结构化数据训练,成功预测蛋白折叠,甚至在某些情况下超越了人类专家。

一些规则不清晰的领域(如法律、社会科学、艺术)确实比编程、数学等领域更难 AI 化。但新一代大模型正在改变这一点:

  • 法律 AI:从“规则”到“案例学习” 传统法律 AI 依赖结构化的法规和判例数据库,而 GPT 级别的 AI 已经可以从海量判例中自动归纳法律推理逻辑。例如:Harvey AI(应用于律师事务所)可以基于历史案件分析诉讼策略,而不是仅仅依赖法条匹配。AI 甚至可以生成法律文件、合同,减少初级法律工作的人工成本。

  • 社会科学 AI:从统计到语义分析 以前,社会科学 AI 主要依赖统计模型分析问卷和调查数据,而现在 LLM 可以直接理解访谈文本、社交媒体对话、心理咨询记录,并进行深层次的情感分析。例如:基于大模型的心理咨询 AI(如 Wysa)可以提供更细腻的情绪分析,而不是仅仅基于评分量表。

  • 艺术 AI:从“复制”到“创造” 过去,AI 生成艺术往往只是模仿,但现在的 AI 生成(如 Midjourney 5、Stable Diffusion XL)已经可以融合风格,甚至创造新的美学概念。例如:AI 生成的绘画、音乐、电影脚本已经能接近人类创意水准。AI 甚至可以学习艺术家的思维方式,而不仅仅是复制他们的作品风格。

一个更完整的 AI 发展框架:

  1. 规则清晰的领域(编程、数学、科学)仍然是 AI 最先突破的方向,但这已经不再是 AI 发展的唯一限制。
  2. 非结构化数据的利用效率大幅提升,使得 AI 可以从文本、图像、视频等模糊信息中自主学习,而不是依赖人工结构化处理。
  3. 规则模糊的领域(法律、社会科学、艺术)也在 AI 化,AI 通过案例学习、语义理解、风格归纳,正在突破这些行业的智能化瓶颈。
  4. AI 未来可能会让更多领域“规则化”,即 AI 可能通过自身推理能力,帮人类发现潜在规律,让以前模糊的领域变得更“可计算”。