• 周一. 4 月 22nd, 2024

对话开源中国董事长马跃AI大模型关键是要被人用如果不开源追随者就很难坐在牌桌上

开源中国社区_开源中国众包_开源中国/

马跃,开源中国主席

搜狐科技出品

作者 梁昌俊

“谷歌在人工智能领域没有护城河,OpenAI 也没有。” 这是不久前谷歌内部研究给出的判断。 原因是开源人工智能模型正在与它们竞争。

开源的力量终于在数百种机型的激战中显现出来,不容忽视。 Meta 的开源 LLaMA 2 引起了轰动。 智源、智浦、百川等已先后开源。 阿里巴巴上周还首次开源了国内厂商的大模型。

在领先的AI开源社区HuggingFace中,开源模型超过27万个,其中包括近2万个对话和文本生成模型,其中不少是今年新增的大型模型。

开源中国董事长马跃表示,开源本身就是一种研发模式,也是一种竞争策略。 开源是否与产品研发能力有关,也是一个特别市场化的事情。 因此,Meta、阿里云等开源模式是市场竞争策略的更多选择。

不过,马跃向搜狐科技强调,绝对领先的技术不太可能开源,因为闭源的商业实现反射弧相对更短、更直接。 “OpenAI自从在GPT-3中取得了绝对领先之后,就不再开源了。如果继续占据主导地位,未来大概率不会开源。”

马跃认为国内投资本来就差,称几个月或半年不太可能赶上OpenAI。 相反,半年后可能会把我们甩得更远。 但得益于开源,它为众多追求者提供了超越的可能,像ChatGPT这样的杀手级应用必将从中涌现。

在他看来,一个大的AI模型的关键是它必须被人使用。 没有需求和反馈,就不可能闭门迭代和构建模型。 “不要为了模型而建立模型,不要追逐有钱人玩的游戏,从当前用户开始逆推,根据能够创造的商业价值来做出技术选择。”

同时,马跃认为,国产巨头不可能跟上大型车型的步伐。 只有一两个人会领先,他们会选择更快赚钱的方法。 “如果闭源能够以非常低的成本被每个人使用,那就没有必要开源了。”

但开源也有风险。 一个好的模型如果开源,可以促进人工智能的普惠性,降低个人和组织赋能千行百业的成本。 如果技术和产品本身没有竞争力,开源也不是万能的。 反之,它会“死”得更快。

“开源本身也会产生竞争,如果用户不下载、不使用,那就没有任何意义。开源模式好不好,不在于权威的认可,而在于公众的评价。关键是看用户数量和使用量的可持续增长。” 马跃说道。

在互联网时代,开源的力量不可低估。 相关开源软件是服务器和移动操作系统的主要市场力量。 马跃对此做出了结论:未来大型AI模型的开源市场份额会更大。 闭源只会服务少数用户,但由于其商业反映弧快、变现效率高,会吃掉大部分利润。

面对正在进行的百模大战,马跃认为,这是流行初期的正常竞争,就像当年的“百团大战”一样。 “但最终,一般大型模式都会是赢者通吃,只有少数企业能够获胜。”

对于垂直模式,需要像HuggingFace这样的分发平台。 “大机型开源就是为爱发电,通过开源,相当于节省了90%的成本,这是成本最低的方式。”

马跃还认为,人工智能与开源是相互成就的乘数关系,将相互加速发展。 “没有开源,大模型就无法传播和落地;没有大模型,开源就无法在未来的互联网时代实现新的增长高峰。”

在谈到近年来国内开源生态的发展时,马跃用“超出预期”来形容。 16年前,他回国成立了国内第一家开源技术服务公司,创建了国内最早的开源社区,并带领Gitee成为全球第二大代码托管平台。

马跃回忆,2007年刚回国时,了解开源概念的人并不多。 但现在中国是全球开源生态系统的第二大贡献者。 有了开源基础和国际通行的开源协议,开源也被写入了“十四五”规划。 他认为开源可以带动自主创新,提高创新速度。

开元中国也于近期完成了7.75亿元的A轮融资。 20多家股东中,一半是国有资产,百度、华为、联想也有投资。 马跃表示,开源中国重组为中立平台后,其新的使命是打造中国版HuggingFace,希望尽快结束数百个模型大战,让大模型能够应用于数千个行业。

以下为谈话实录(经过编辑整理)

搜狐科技:人工智能涉及很多要素。 AI开源到底是什么? 谁在这个领域处于领先地位?

马跃:目前我们需要更多关注HuggingFace,它是AI领域的GitHub。 开源除了代码之外,还包括模型、数据集等,每个公司可能不一样。 好的开源模式可以促进人工智能的普惠性,大大降低个人和组织赋能千行百业的成本。

搜狐科技:阿里巴巴、智浦、百川等相继开源了自己的模型。 您如何看待这些公司的开源行为?

马跃:OpenAI遥遥领先。 如果其他公司不开源,他们就很难做出成绩。 拥有模型没有多大意义。 最好开源。 通过开源首先免费获取用户是一个极好的做法,也非常重要,否则在百款之争中很难上台面。 如果依靠开源、免费服务,仍然无法吸引用户,只能说明产品竞争力不够。 如果消除了,就能更早发现问题,反过来也能证明开源行为的价值。

企业开源也会面临商业回报的问题,比如反射弧长、变现效率低、前期研发成本浪费等。 但从另一个角度来看,开源的目的是为了更好地获取用户,建立声誉和品牌,获取用户反馈,这也可以视为一种营销行为。

搜狐科技:阿里巴巴首次开源了国内各大厂商的大模型。 未来会有更多大厂商开源吗?

马跃:国内这些巨头不可能一起前进。 未来只有一两家遥遥领先,他们肯定会选择更快赚钱的方式。 如果闭源可以以非常低的成本被每个人使用,为什么要开源呢? 但如果闭源没有很好的商业回报,而且没有那么强,没有开源就很难坐上牌桌。

大模型的关键在于它需要被人使用。 没有需求和反馈,就不可能迭代。 闭门造模型有什么用? ChatGPT 并不是开源的,但短短几个月内就有数亿人使用过它。 为什么它应该是开源的? 这是一个市场博弈问题。 市场竞争和用户利益至关重要。 开源不仅仅是为了开源。 这只是一种手段。

搜狐科技:OpenAI最初是开源的,但GPT-3之后不再开源。 还有消息称其正在开发开源模型。 你觉得这个秋千怎么样?

马跃:开源本身就是一种研发模式,也是一种竞争策略。 它本质上是一种方法论。 开源是否与产品开发能力的进步有关,也是一个特别市场化的事情。 GPT-3之后的版本功能非常强大,并且不需要开源。 然而,许多追随者需要使用开源来迎头赶上。 因此,绝对领先的技术不太可能开源,因为闭源的商业实现反射弧相对更短、更直接。

搜狐科技:开源大模型能否赶上Open AI? 像ChatGPT这样的杀手级应用会由此诞生吗?

马跃:开源模式肯定会催生像ChatGPT这样的应用。 垂直场景蕴藏无限商机,就看谁能应用。 不要为了模型而建立模型,不要追逐有钱人玩的游戏,从当前用户开始逆推,根据能够创造的商业价值来进行技术选择。

OpenAI已经工作了好几年了,烧了很多钱。 相比之下,国内投资相对较差。 我们不太可能在几个月或半年内赶上。 更有可能的是,半年后,它就会把我们甩得更远。 我什至认为我可能永远跟不上它,因为它不存在算力卡顿等问题,还在加速增长。 但幸运的是,开源提供了竞争的可能性。

搜狐科技:杨立坤认为,Meta开源LLaMA2将改变大模型行业的竞争格局。 你怎么认为?

马跃:看看历史就很清楚了。 开源的Android可以占据移动操作系统80%的市场份额,但利润可能只有20%到30%,大部分都留给了iOS,而iOS的份额只有20%左右。 开源也是类似的。 它的策略是让闭源变得不可访问。 未来大部分人和公司都会采用开源模式,市场份额会更大。 闭源只服务少数用户,但反射弧快,变现效率高,会吃掉大部分利润。

搜狐科技:中国已进入百款大战。 您对这股热潮有何看法? 所有这些大型模型都能生存下来吗?

马跃:很多人都在喧哗、追逐热点。 反正人口多,场景多,也不缺钱。 这是无序、盲目的竞争。 很多投资者即使知道自己只会赢一两个,也不敢错过。 一些企业家可能还抱着投机的心态。 会持续一段时间,就像当年的“百团大战”一样。

但通用模型是大厂商的游戏。 最终,只有少数巨头会获胜,其他巨头可能会消失。 我不相信会有很多纯粹的初创公司能够制造出杀手级的通用模型。 垂直模式需要类似HuggingFace的分发平台和自由市场竞争。

目前,大型模型的开源是为了为爱发电。 通过对经过数据集训练的开源模型进行推理和调优,与从头开始训练模型相比,可以节省 90% 的成本。 这是使用门槛最低的方法。

搜狐科技:开源在人工智能的实际应用中将发挥什么作用? 您如何看待两者之间的关系?

马跃:第一波开源浪潮是从互联网开始的。 开源操作系统、数据库等基础设施给了互联网公司疯狂成长的机会。 互联网使得获取开源项目变得更加容易。 它们是一种相辅相成的乘法关系。

AI与互联网类似,与开源存在乘数关系,会加速彼此的发展。 没有开源,大模型就无法很好的传播; 没有大模型,开源就无法在未来的互联网时代实现新的增长高峰。

搜狐科技:过去中国更多依赖国外开源软件,但现在强调自主创新。 开源如何促进创新?

马跃:开源让我们站在巨人的肩膀上。 这是推动生产力发展的必然途径。 它还可以带动自主创新,提高创新速度。 现在有人指出我们应该在哪里投资,我认为我们应该充分利用开源的方法论。 但现在想赚钱的人太多了。 最大的问题是他们不尊重专业精神。 开源是一个专业的事情。 代码托管平台技术含量较高。 不是每个人都能做到,也不是一朝一夕就能实现的。

搜狐科技:开源越来越受到关注。 开源中国希望发挥什么作用或者希望达到什么目标?

马跃:新的使命是将软件产品研发平台升级为AI工程平台,帮助软件工程师升级为AI工程师,打造中国版HuggingFace。 我们是一个中立的第三方,代表开发商的利益行事,比大厂商更适合这样做。 我们希望这能够早日结束百模之战,让每个公司、每个人都能用上大模型。 未来将会出现千款甚至万款的战争。 我们目前已经推出的7000多个型号将在今年年底在新平台上推出,但我们首先要解决计算能力的问题。

搜狐科技:开源在中国如何商业化? 获得融资后,下一步重点计划是什么?

搜狐科技:开源中国现在已经是一家完全商业化的软件工具制造商,并且已经实现了盈亏平衡。 接下来,我们将加大新创产品线的开发,拥抱人工智能。 未来,我们希望以高科技公司的身份在科创板上市,成为国内第一家软件工程和人工智能工程公司。