
2025年春节期间,DeepSeek的爆火引发了人们对开源大模型的广泛讨论——在此之前,OpenAI、Anthropic等海外头部大模型公司仍在维持“算法黑箱”的神秘性,但DeepSeek却赋予了用户对其模型进行洞察、修改和二次开发的权利,于是各行各业的开发者可以站在DeepSeek的肩膀上推动自身的发展。
实际上,早在DeepSeek前,由Meta推出的Llama作为开源大语言模型的先锋,已经在研究和商业领域得到了广泛的应用。如果说开源模型是一个待被打磨的璞玉,那么微调工具就是雕琢它的刻刀。正是这些工具,协助强劲的模型适应社会多变的需求,在医疗、教育、金融等场景落地。LlamaFactory正在扮演这样的重大角色。
科协频道采访了LlamaFactory的作者、北京航空航天大学博士郑耀威。他不仅与我们分享了该平台在模型兼容、社区互动等方面的创新实践,也分享了他对开源生态、AI人才培养等方面的见解。

郑耀威 北京航空航天大学博士生
以第一作者在ACL、CVPR、WWW等会议和期刊发表多篇论文,担任AAAI、EMNLP审稿人。北航榜样、昇腾生态开源卓越贡献奖获得者。大模型微调框架LlamaFactory发起人和主要开发者,GitHub开源项目获得超过4万Stars。
LlamaFactory是一个低代码的大语言模型(LLM)训练平台,“它类似于‘百宝箱’的功能,不仅能做到‘易用’,而且能做到‘泛用’”,郑耀威介绍道,这个平台可以支持微调一百多种大语言模型,包括DeepSeek、阿里通义千问、腾讯混元在内的多种国产开源模型。
由于不同模型有各自独特的数据格式要求,为了解决多种模型接入的难题,郑耀威在采访中表明,其团队采用了算法、模型、数据“解耦”的策略,将模型训练过程打造成一套标准的流水线,最终可以提供一个模型的统一出入口来完成大模型定制化。
打个比方,这一策略类似于修建了一条标准化的高速公路,不同的模型像是在高速公路上行驶的不同种类的车辆,而数据就像是装在车上的货物。在传统的模型训练中,每种模型可能都需要“修建一条适合自己的训练道路”,但 LlamaFactory 选择了另一种方式:把路修好了,无论货物在哪辆车上运载,都沿着统一的路线流转——只要模型的推理能够在这条“高速公路”上跑通,微调时只需调节参数并完成相关操作,整个过程就变得更加简单快捷。
LlamaFactory修建了一条标准化的高速公路,让不同模型的推理可以在一条路线上跑通
除此以外,郑耀威表明,LlamaFactory 可以将不同领域的“专家模型”整合为一个“专家系统”:开发者只需要了解任务需求,选择合适的“专家”并调整参数即可。这使得缺乏深厚编程背景的研究人员也能够快速上手微调模型,必定程度上打破了“技术壁垒”。
郑耀威表明,LlamaFactory 并非止步于技术层面的优化,而是尝试构建一个活跃的开源大模型社区生态。他提到自己几乎每天都会在社区内与用户互动,哪怕是周末也会及时解答用户问题,“我觉得开源社区最大的优点就是可以直面用户”,郑耀威说,建立开源社区一方面可以推动工具的广泛使用,让更多普通开发者也能更深入地了解并使用工具,另一方面持续在社区内解决问题,也是优化系统、磨炼水平的宝贵机会。
开源是人工智能发展的必然趋势,郑耀威说:“闭源和开源类似于传统攻防的角色,开源模型的崛起,也会加速闭源模型的优化,两者相互博弈,共同加速AI模型的发展演进。”
图源 pexels
郑耀威指出,开源大模型本身只是一套参数和代码的集合,真正让这些模型发挥作用的,是像Ollama、LlamaFactory、vLLM这样的配套工具。将工具交给更多人,赋予他们使用和改善AI的权利,这既是开源的意义所在,也是“人本主义”的体现。
“AI它不是取代人类工作的,而是去辅助人类工作,去提升人的效率的。”在郑耀威看来,AI应当,并应被允许成为服务于每个人的“助手”。LlamaFactory 正推动“技术普惠”这一理念的落地。
但我们还需认识到,智能鸿沟将成为人类发展和治理面临的巨大挑战之一。有学者指出,“作为工具和手段,AI技术的可访问性包括物理可达性(基础设施)、经济可负担性(成本)、认知可理解性(教育与技能)等,其本质上还包含了算法、数据、计算能力等组成部分”。因此真正实现AI的公平应用,不能仅依赖工具本身,还需在教育、政策、社区等层面开展更深层次的努力。
“人工智能”成为今年两会的热词之一,今年两会的“部长通道”上,教育部部长怀进鹏表明,会继续加大国家智慧教育平台建设,把人工智能和教育结合起来,今年中国将发布人工智能教育白皮书。人工智能成为当下教育改革和发展的重大机遇。
清华大学教育研究院党委书记张羽曾在接受媒体采访时表明,人工智能技术正在全面取代普通程序员,未来社会将更为看重“人机协同”创新能力。那么未来的社会AI人才将呈现出什么模样呢?
有人认为是具备交叉学科素养,能够综合统筹不同领域的知识,也有人说是快速适应新兴技术的出现,敢于创新突破。郑耀威的答案是:“在钻研技术的同时,对AI的应用有清晰的认知,我们学习AI的目的是协助这个社会更好的发展”,这指向了一条科技与人文交融的道路。
9月29日,北京建筑大学土木工程专业大一学生正在上人工智能通识课。学生们用手机回答问题,在教室前方的屏幕上显示。新华社记者 赵旭 摄
近年来,人工智能通识课逐步走入高校,郑耀威也表明,希望进一步加大高校人工智能通识课的开设力度,人工智能不止是计算机专业的“专属”。对于跨学科学习人工智能的同学,郑耀威表明不用太焦虑:“我认为AI是一个超级泛用的工具,可以从自己学科的角度去理解模型、应用模型,不需要去探索里面过多的细节。”
作为一个诞生于实验室的项目,LlamaFactory团队的运作模式本身也是AI人才培养的一个典型案例。团队成员以北航实验室研究生为主,资深博士生承担项目核心开发,带动新生逐步积累经验,充分发挥了实验室文化中“传帮带”的优势,让团队在推进项目开发的同时,也培养出了一批具备科研创新能力和工程实践能力的AI人才,加速了高校教育和产业的融合。
参考资料:
方兴东,钟祥铭.生成式AI与智能鸿沟:智能时代数字不平等的趋势、逻辑与对策[J].湖南师范大学社会科学学报,2024,53(06):121-131.
作者 | 徐艳
排版 | 团儿
审核 | 六朵 钱玮 小林 贞贞
文章未经授权,请勿转载。
免责声明:本文内容仅代表作者个人观点,不代表平台立场,欢迎大家在评论区讨论。
栏目推荐
滑动查看更多栏目












