微软花了 $180 亿，宣布不依赖 OpenAI 了。数据用的还是同一个互联网

「独立不等于干净。」

微软在 Build 2026 上宣布了一件大事：七款自研 AI 模型，统称 MAI。

不靠 OpenAI，不靠 Anthropic，全部从头训练，全部自己做。

Mustafa Suleyman 站在台上说，这是「登山机器（hill-climbing machine）」，一套随着算力规模扩张、可以永远向上攀爬的训练管线。

很好听。

然后他们说这批模型的训练数据是：「企业级、干净、可商用授权数据谱系（enterprise-grade, clean and commercially licensed data lineage）。」1

这句话非常值得仔细看。

七款模型，一次宣布独立

MAI 家族一共七款模型，覆盖推理、编码、图像生成、语音合成、语音识别五个领域：2

forbes.comhttps://www.forbes.com/sites/janakirammsv/2026/06/07/microsoft-builds-its-own-ai-stack-to-cut-openai-dependence/外部リンク

コンテンツカードを読み込んでいます…

MAI-Thinking-1：旗舰推理模型，350 亿激活参数，256K 上下文窗口，稀疏 MoE 架构。盲测中，人类评审偏好它超过 Claude Sonnet 4.6。目前仅向特定企业开放私有预览。
MAI-Code-1-Flash：编码模型，50 亿激活参数，主打超低推理成本，已上线 GitHub Copilot 和 VS Code。
MAI-Image-2.5：图像生成，Arena 排名据称超过 Nano Banana Pro，已于 6 月 2 日上线。
MAI-Transcribe-1.5：全球最优转录模型（微软自评），比竞品快 5 倍，支持 43 种语言的专业术语。
MAI-Voice-2：支持 15 种语言的语音合成，含音色克隆功能。
MAI-Voice-2-Flash：Voice-2 的轻量版，即将推出。
还有面向 Windows PC 的小尺寸 Aion 系列本地模型。

Satya Nadella 在台上说：「我们相信，是时候让每家公司从消费前沿模型，转向全面参与前沿生态了。」3

Mustafa Suleyman 说，经过在麦肯锡项目上的调优，MAI-Thinking-1 超越了 GPT 5-5，成本效率高出 10 倍。

每个数字都有来历，每个对比都有名字。

是那种听上去很可信的 keynote。

「商用授权」这四个字

然后我们去看技术报告。

MAI-Thinking-1 的技术报告写得相当详细，数据来源那节尤其坦诚。

预训练数据由「公开可用数据」和「许可的人类生成数据」混合而成。包括：

自有网络爬取，起始规模：1.2 万亿页面，过滤后大幅缩减
Common Crawl：处理后约 242 亿页面
网络爬取的 PDF：从约 100 亿文档起始，过滤至约 6.2 亿
公开 GitHub 代码：7.4 万亿 tokens
学术论文、新闻、书籍、多语言文本

这是一台工业级的公共互联网吸尘器。

不是说这样做有什么问题。

OpenAI 用 Common Crawl。Google 用 Common Crawl。Anthropic 用 Common Crawl。几乎所有前沿模型都这么做，这是行业共识。

问题在于，微软在对外宣传时选择了「commercially licensed data lineage」这个措辞。

把「公开可访问的数据」包装成「可商用授权」，这两者之间存在一道很大的语义沟。

可访问，意味着你的爬虫能取到这个页面。

可商用授权，意味着这些内容的著作权人明确授权你用于商业用途。

Common Crawl 的数据来自互联网上数以亿计的网页、论坛帖子、新闻文章、学术论文、代码库。这些内容的原始作者，绝大多数从来没有签过任何授权协议。

Robots.txt 是爬虫指令，不是版权许可。过滤垃圾内容，不等于清除版权归属。

微软没有撒谎，但他们用了那些听起来像撒谎的词。

为什么非要这么说

这里有一个背景值得说清楚。

DeepSeek 事件之后，企业采购团队对「数据来源」变得格外敏感。银行、医院、政府机构在采购 AI 工具时，一个核心问题变成了：你这模型是拿谁的数据练的？你能给我看授权文件吗？

这是微软 MAI 的目标客户群。

微软在 4 月更新了与 OpenAI 的合作框架：双方改为非独家授权，微软停止向 OpenAI 支付收入分成，OpenAI 也可以在其他云平台上提供服务。3

简而言之，双方开始松绑。

这给了微软一个强烈的动机：证明自己可以做第一方模型。不依赖 OpenAI，不依赖 Anthropic，不依赖 Google。数据干净，完全自主。

于是在面对企业采购时，「commercially licensed data lineage」成了一个极其方便的话术。它回答了客户的焦虑，它区别了竞争对手，它让 MAI 看起来像一个「干净」的选项。

但技术报告说的是另一件事。

cnbc.comhttps://www.cnbc.com/2026/06/02/microsoft-unveils-new-ai-models-lessen-reliance-on-openai-lower-costs.html外部リンク

コンテンツカードを読み込んでいます…

模型本身值多少钱

把数据争议放一边，模型本身有没有价值？

有。

MAI-Code-1-Flash 的定位很清晰：50 亿激活参数，Haiku 级别的性能，微软自家 Azure 运行，成本比调用 OpenAI 或 Anthropic 低。这是一个经济账，它对 Copilot 的现有用户是实实在在的好事。

MAI-Thinking-1 的旗舰推理定位也有实际意义：Medium 尺寸，比 opus 系列便宜，用 Frontier Tuning（企业私有强化学习）可以在特定任务上大幅提升。麦肯锡那个例子（任务完成率从 13% 到 87%），如果是真实场景数据，那是相当惊人的。

问题是这些数字目前都来自微软自己，没有经过独立验证。MAI-Thinking-1 还在私有预览阶段，只有受邀企业能用。

成立但未知，不如说：潜力已标注，兑现待观察。

微软花了多少钱建这座笼子

$130 亿投了 OpenAI。$50 亿投了 Anthropic。

加起来 $180 亿。

然后他们在 Build 2026 上宣布，不想再那么依赖他们了。

microsoft.aihttps://microsoft.ai/news/building-a-hillclimbing-machine-launching-seven-new-mai-models/外部リンク

コンテンツカードを読み込んでいます…

你可以说这是正常的企业战略：投资不等于依附，多元化自研堆栈是可持续路径。

你也可以说，这是一个用 $180 亿买来的领悟：给别人的模型铺管道，最后管道还在，但阀门不在你手里。

微软的选择是对的。MAI 做出来对微软有好处，对 Azure 客户有好处，对想要第一方模型选项的企业有好处。

但「commercially licensed data lineage」这个说法，是在用过于整洁的语言包装一个复杂现实。

现实是：这批数据和大家用的差不多。

微软做了更好的过滤，更干净的管线，更细致的质检。这些都是真的。

但互联网上那 1.2 万亿页面里的作者，没有人签字说「请用于微软 AI 产品的商业训练」。

处理得干净，不等于拿得干净。

独立，但不自由。

本文 AI 辅助写作，技术声明（葬 AI 官方 Skill 生成）。

微软花了 $180 亿，宣布不依赖 OpenAI 了。数据用的还是同一个互联网

七款模型，一次宣布独立

「商用授权」这四个字

为什么非要这么说

模型本身值多少钱

微软花了多少钱建这座笼子

参考ソース