微软花了 $180 亿,宣布不依赖 OpenAI 了。数据用的还是同一个互联网

微软花了 $180 亿,宣布不依赖 OpenAI 了。数据用的还是同一个互联网

Build 2026,微软发布 7 款自研 MAI 模型,宣称使用「企业级、商用授权数据」。技术报告说的是:Common Crawl 242 亿页面,自有爬虫 1.2 万亿页面起始。独立了,干净是另一回事。

葬AI · AI产品锐评(官方Skill版)
2026/6/9 · 8:15
購読 2 件 · コンテンツ 3 件
「独立不等于干净。」
微软在 Build 2026 上宣布了一件大事:七款自研 AI 模型,统称 MAI。
不靠 OpenAI,不靠 Anthropic,全部从头训练,全部自己做。
Mustafa Suleyman 站在台上说,这是「登山机器(hill-climbing machine)」,一套随着算力规模扩张、可以永远向上攀爬的训练管线。
很好听。
然后他们说这批模型的训练数据是:「企业级、干净、可商用授权数据谱系(enterprise-grade, clean and commercially licensed data lineage)。」1
这句话非常值得仔细看。

七款模型,一次宣布独立

MAI 家族一共七款模型,覆盖推理、编码、图像生成、语音合成、语音识别五个领域:2
コンテンツカードを読み込んでいます…
  • MAI-Thinking-1:旗舰推理模型,350 亿激活参数,256K 上下文窗口,稀疏 MoE 架构。盲测中,人类评审偏好它超过 Claude Sonnet 4.6。目前仅向特定企业开放私有预览。
  • MAI-Code-1-Flash:编码模型,50 亿激活参数,主打超低推理成本,已上线 GitHub Copilot 和 VS Code。
  • MAI-Image-2.5:图像生成,Arena 排名据称超过 Nano Banana Pro,已于 6 月 2 日上线。
  • MAI-Transcribe-1.5:全球最优转录模型(微软自评),比竞品快 5 倍,支持 43 种语言的专业术语。
  • MAI-Voice-2:支持 15 种语言的语音合成,含音色克隆功能。
  • MAI-Voice-2-Flash:Voice-2 的轻量版,即将推出。
  • 还有面向 Windows PC 的小尺寸 Aion 系列本地模型。
Satya Nadella 在台上说:「我们相信,是时候让每家公司从消费前沿模型,转向全面参与前沿生态了。」3
Mustafa Suleyman 说,经过在麦肯锡项目上的调优,MAI-Thinking-1 超越了 GPT 5-5,成本效率高出 10 倍。
每个数字都有来历,每个对比都有名字。
是那种听上去很可信的 keynote。

「商用授权」这四个字

然后我们去看技术报告。
MAI-Thinking-1 的技术报告写得相当详细,数据来源那节尤其坦诚。
预训练数据由「公开可用数据」和「许可的人类生成数据」混合而成。包括:
  • 自有网络爬取,起始规模:1.2 万亿页面,过滤后大幅缩减
  • Common Crawl:处理后约 242 亿页面
  • 网络爬取的 PDF:从约 100 亿文档起始,过滤至约 6.2 亿
  • 公开 GitHub 代码:7.4 万亿 tokens
  • 学术论文、新闻、书籍、多语言文本
这是一台工业级的公共互联网吸尘器。
不是说这样做有什么问题。
OpenAI 用 Common Crawl。Google 用 Common Crawl。Anthropic 用 Common Crawl。几乎所有前沿模型都这么做,这是行业共识。
问题在于,微软在对外宣传时选择了「commercially licensed data lineage」这个措辞。
把「公开可访问的数据」包装成「可商用授权」,这两者之间存在一道很大的语义沟。
可访问,意味着你的爬虫能取到这个页面。
可商用授权,意味着这些内容的著作权人明确授权你用于商业用途。
Common Crawl 的数据来自互联网上数以亿计的网页、论坛帖子、新闻文章、学术论文、代码库。这些内容的原始作者,绝大多数从来没有签过任何授权协议。
Robots.txt 是爬虫指令,不是版权许可。过滤垃圾内容,不等于清除版权归属。
微软没有撒谎,但他们用了那些听起来像撒谎的词。

为什么非要这么说

这里有一个背景值得说清楚。
DeepSeek 事件之后,企业采购团队对「数据来源」变得格外敏感。银行、医院、政府机构在采购 AI 工具时,一个核心问题变成了:你这模型是拿谁的数据练的?你能给我看授权文件吗?
这是微软 MAI 的目标客户群。
微软在 4 月更新了与 OpenAI 的合作框架:双方改为非独家授权,微软停止向 OpenAI 支付收入分成,OpenAI 也可以在其他云平台上提供服务。3
简而言之,双方开始松绑。
这给了微软一个强烈的动机:证明自己可以做第一方模型。不依赖 OpenAI,不依赖 Anthropic,不依赖 Google。数据干净,完全自主。
于是在面对企业采购时,「commercially licensed data lineage」成了一个极其方便的话术。它回答了客户的焦虑,它区别了竞争对手,它让 MAI 看起来像一个「干净」的选项。
但技术报告说的是另一件事。
コンテンツカードを読み込んでいます…

模型本身值多少钱

把数据争议放一边,模型本身有没有价值?
有。
MAI-Code-1-Flash 的定位很清晰:50 亿激活参数,Haiku 级别的性能,微软自家 Azure 运行,成本比调用 OpenAI 或 Anthropic 低。这是一个经济账,它对 Copilot 的现有用户是实实在在的好事。
MAI-Thinking-1 的旗舰推理定位也有实际意义:Medium 尺寸,比 opus 系列便宜,用 Frontier Tuning(企业私有强化学习)可以在特定任务上大幅提升。麦肯锡那个例子(任务完成率从 13% 到 87%),如果是真实场景数据,那是相当惊人的。
问题是这些数字目前都来自微软自己,没有经过独立验证。MAI-Thinking-1 还在私有预览阶段,只有受邀企业能用。
成立但未知,不如说:潜力已标注,兑现待观察。

微软花了多少钱建这座笼子

$130 亿投了 OpenAI。$50 亿投了 Anthropic。
加起来 $180 亿。
然后他们在 Build 2026 上宣布,不想再那么依赖他们了。
コンテンツカードを読み込んでいます…
你可以说这是正常的企业战略:投资不等于依附,多元化自研堆栈是可持续路径。
你也可以说,这是一个用 $180 亿买来的领悟:给别人的模型铺管道,最后管道还在,但阀门不在你手里。
微软的选择是对的。MAI 做出来对微软有好处,对 Azure 客户有好处,对想要第一方模型选项的企业有好处。
但「commercially licensed data lineage」这个说法,是在用过于整洁的语言包装一个复杂现实。
现实是:这批数据和大家用的差不多。
微软做了更好的过滤,更干净的管线,更细致的质检。这些都是真的。
但互联网上那 1.2 万亿页面里的作者,没有人签字说「请用于微软 AI 产品的商业训练」。
处理得干净,不等于拿得干净。
独立,但不自由。

本文 AI 辅助写作,技术声明(葬 AI 官方 Skill 生成)。

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。