本报记者 卢晓 北京报道
对于大模型的开闭源路线之争,腾讯最新的选择是加码开源。
11月5日,腾讯宣布最新的MoE模型“混元Large”以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源。腾讯机器学习平台总监、腾讯混元大语言模型算法负责人康战辉在接受《华夏时报》等媒体记者采访时还表示,今天的开源只是万里长征第一步,未来腾讯混元还会继续开源不同尺寸、面向不同场景的大模型。
开源与闭源的不同选择,关系着大模型厂商资金、技术的投入方向,以及外界最关注的大模型商业化落地进展,更重要的是它同时关系着大模型市场未来多年的竞争格局。“去年大模型如火如荼,开源也是百花齐放,今天大家来看, 还是各归各位。它就是AI时代的一个操作系统,是一个底层基础设施,不存在入口、流量,我们可以沉下心来长期深耕。”康战辉当天这样说道。
持续加码开源
继去年5月开源业界首个中文DIT文生图模型后,腾讯混元在开源道路上走得更远。
据腾讯方面介绍,新开源的腾讯混元Large大模型总参数量达398B,激活参数量 52B ,上下文长度达256K,是目前开源领域参数规模最大的MoE模型(Mixture of Experts,即混合专家模型)。今年年初混元大模型在国内率先采用MoE架构,性能比上一代Dense模型提升50%。此外,腾讯混元3D生成大模型则是业界首个同时支持文字、图像生成3D的开源大模型。
康战辉当天在接受采访时表示,腾讯混元现在开源的是参数权重,不涉及到数据和代码,但接下来会把训练代码开源出来,同时会把评估期开源出来,希望向业界展示更多的诚意。他同时认为,大模型开源数据本身意义不大,因为数据规模太大,“现在的大模型普遍训练的数据都是几万亿tokens,很难把它维护起来去做进一步的挖掘。”
腾讯混元新开源的大模型,已经率先在腾讯内部业务中使用。
其中,据康战辉介绍,混元Large模型此前已经在腾讯的AI搜索、AI阅读上进行试用,此外它在腾讯旗下的金融领域以及协同办公等业务上也都有所涉及。但他也提到,混元Large模型并不是旗舰模型,“我们的旗舰模型混元 Turbo很大,比较适合复杂业务去应用,但是技术上是同宗同源的。”
据记者了解,腾讯2023年初启动了生成式大语言模型研发,去年9月对外首次亮相,今年1月,腾讯混元在业界首发万亿参数的MoE大模型,今年9月腾讯推出新一代旗舰大语言模型混元Turbo。
对于腾讯混元的开源战略,康战辉表示,腾讯在大模型包括开源战略上实行长期战略风格,“至少大模型我们做了一年多,没有着急去开源,很重要的一点就是开源结果是自然而然的发展,我们是闭源做得比较好了之后去做了开源。”他表示,腾讯混元希望通过慢工出细活的方式在开源方面得到用户更多认可。
不同选择背后
在开闭源路线上,许多大模型厂商已经做出自己的选择。
以chatGPT掀起AIGC之火的openAI以及国内率先推出大语言模型的百度都是坚定的闭源路线支持者。开源这条道路上,行走的则有Meta、阿里、百川智能、智谱AI等厂商。其中,去年12月阿里云正式开源了通义千问720亿参数的大模型Qwen-72B,今年9月它在云栖大会上又发布了通义千问新一代开源模型Qwen2.5,涵盖多个尺寸大模型。
在大模型厂商做出不同选择背后,对于开闭源路线孰优孰劣业界早已有所讨论。
深度科技研究院院长张孝荣认为,开源模型可以通过免费使用和增值服务等方式实现盈利,闭源模型则需要通过定制化的解决方案和优质的客户服务来获取商业价值,他对《华夏时报》记者表示,开源和闭源两条路线的成功与否,最终还要看技术创新和性能、生态系统和社区、商业模式和市场策略以及政策环境和法律风险等决定因素。
盘古智库高级研究员江瀚则对记者表示,开源路线可以加速大模型的研发迭代速度,并且避免一些知识产权问题,闭源路线则可以更好地保护企业的核心技术和数据资产,同时提供更加专业的技术支持和服务,“这对于一些需要高度定制化的大模型应用的企业来说更加合适。”但他同时也认为,大模型的开源闭源路线都面临着不同挑战。
对于开闭源路线的不同定位,康战辉则认为,头部企业规模大,很多业务很复杂,可能就是需要闭源才能解决,开源因为面对不同的开发者,尤其有大量的中小企业,包括个人开发者,考虑的受众和成本需求都不一样。对于腾讯混元为何率先开源较大参数规模的模型,他则表示,这源于腾讯更多是把自身业务里面应用核心的模型先拿出来开源,后续还会面向端侧等不同场景开源出一些更小尺寸的模型。
当天在谈到业界在AGI领域的不同路线时,康战辉还表示,业界对于AGI的长期目标都有思考,但是这个路线怎么走,会导致各家未来的生态不一样,“罗马一直在,路怎么走是不一样的。”
责任编辑:黄兴利 主编:寒丰