从数据到芯片，开发AI越来越昂贵，只有科技巨头

更多的训练数据、更大的模型、更多的芯片和数据中心，这些推动人工智能（AI）进步的“基础设施”，正推高科技公司的成本。

　　5月，OpenAI与美国新闻集团（News Corp）签订了一项五年内金额超过2.5亿美元的内容授权协议，允许前者使用后者的新闻出版物内容来回答用户查询并训练AI。此前，图片提供商Shutterstock与苹果、Meta、谷歌、亚马逊等大型科技公司签订了2500万至5000万美元的交易，提供其庞大的图片和视频库用于AI训练。

　　全球经济分析公司BCA Research美国股票首席策略师唐克尔（Irene Tunkel）对第一财经记者表示，科技公司在AI领域开展了大量工作，但除非销售的是AI相关的“工具和设备”或云存储，否则科技公司更多仍做的是AI资本支出，而不是靠AI挣钱。

　　然而，大量的资本开支需求无疑会将无力承担相应成本的公司甩在后面，有能力在这场游戏中竞争的玩家仍将是我们熟知的科技巨头。

　　“基础设施”很贵，资本支出很高

　　唐克尔介绍，在生成式AI的生态系统中，提供芯片和计算机硬件、云平台和服务、数据库、网络和分析等产品和服务的属于生成式AI的“基础设施公司”，帮助模型的顺利开发和部署。例如，OpenAI的研究员贝特克（James Betker）曾表示，训练模型的数据是越来越复杂、强大的AI系统的关键。

　　但数据该从哪来？据报道，生成式AI模型主要通过从公共网页中获取的图像、文本、音频、视频和其他数据（其中一些是有版权的）进行训练。例如，OpenAI在未经某视频社交网站或创作者许可的情况下，转录了超过一百万小时的相关视频，以供其旗舰模型GPT-4使用。元公司（Meta）也一直在使用旗下公司照片墙（Instagram）上的图片和视频来训练其模型，并只允许欧盟公民退出这一机制。

　　随着法律诉讼的增多，AI公司开始选择付费。例如，线上社区Reddit称，该公司已通过向谷歌和OpenAI等组织许可数据赚取了数亿美元。据报道，AI训练数据市场预计将在十年内从现在的约25亿美元增长到接近300亿美元。

　　模型训练也并不便宜。OpenAI首席执行官奥尔特曼（Sam Altman）表示，训练GPT-4的成本超过1亿美元。AI初创公司Anthropic首席执行官阿莫代（Dario Amodei）也称，目前市场上的人工智能模型的训练成本约为1亿美元。他说：“现在正在训练的模型，以及将在今年晚些时候或明年年初推出的模型，成本接近10亿美元。我认为在2025年和2026年，我们的成本将接近50亿美元或100亿美元。”

　　芯片支出更是一个大项目。据报道，英伟达的H100图形芯片售价约为30000美元。元公司首席执行官扎克伯格（Mark Zuckerberg）此前曾表示，公司计划在今年年底前购买35万块H100芯片，以支持其人工智能研究工作。此外，亚马逊公司的云计算部门以每小时约6美元的价格向客户租用英特尔公司制造的大型主力处理器集群。

　　在云服务中心方面，每一座数据中心的成本都以亿来计算。例如，微软公司与阿联酋AI公司G42宣布，双方将合作投资10亿美元在肯尼亚建设一个数据中心，投资40亿欧元在法国建设AI数据中心和云基础设施。过去两年里，亚马逊也已承诺斥资1480亿美元在全球建设和运营数据中心，以应对AI应用和其他数字服务需求的激增。

　　总的来看，微软在4月表示，最近一个季度的资本支出为140亿美元，比去年同期增长了79%，由于AI基础设施投资，这些成本“大幅增加”。谷歌母公司Alphabet也表示，上一季度支出为120亿美元，比去年同期增长91%，并预计今年下半年的支出将“达到或超过”这一水平。与此同时，Meta也上调了对今年投资的预期，目前认为资本支出将达到350亿至400亿美元，在这一区间的上限将增长42%。

　　反垄断部门怎么看

　　美国艾伦人工智能研究所（AI2）高级应用研究科学家凯尔·洛（Kyle Lo）认为，高额的训练成本将把小公司排除在“开发或研究AI模型”之外。

　　凯尔·洛表示，对大规模、高质量训练数据集的日益重视，将把AI开发集中在少数拥有数十亿美元预算、能负担得起获取这些数据集的公司。合成数据或基础架构方面的重大创新可能会打破现状，但在近些年似乎都不会出现。

　　“总的来说，管理对AI开发潜在有用内容的实体有动力锁定他们的材料。”凯尔·洛说，“随着数据访问的关闭，我们基本上在为一些早期数据获取者开绿灯，并且撤掉梯子，其他人无法获得数据以赶上来。”

　　目前，欧美英的反垄断机构也已经盯上了科技巨头在AI领域的地位。

　　例如，英国竞争与市场管理局（CMA）在今年4月发布的报告中称，AI基础模型市场中主要参与者的合作关系可能通过其价值链加剧垄断。5月，美国司法部（DOJ）也宣布加强对AI领域竞争情况的关注。近日，美国司法部反垄断部门主管坎特（Jonathan Kanter）表示，过去40年的反垄断政策未能有效保护公众利益，导致了少数公司对市场和信息流的控制。他强调，内容创作者和开发者在当前市场环境中面临的高额费用，在大公司增加对内容创作和分发的控制时尤其如此。

　　当涉及大科技公司收购AI初创公司时，富而德律师事务所中国反垄断业务部主管杜宁（Ninette Dodoo）对第一财经记者表示：“欧盟和美国的监管机构正越来越具有干预倾向，同时他们具备的执法工具也有能力对所有并购案件发起法律挑战。”

　　金杜律师事务所合伙人吴涵律师告诉第一财经，中、美、欧在AI数字治理领域的监管在一定程度上均具有共性，比如都重点关注AI系统的透明度披露、训练数据治理、知识产权保护、内容安全与伦理等。

　　（本文来自第一财经）