Hugging Face发布SmolLM系列小模型
科技IT 2024-07-22 yu66841
7月22日消息,Hugging Face日前推出了SmolLM,这是一款全新的紧凑型语言模型系列,其中包含1.35 亿、3.6亿和17亿参数模型,旨在容纳各种计算资源。
Hugging Face公司SmolLM项目首席机器学习工程师Loubna Ben Allal表示:“我们不需要为每项任务都建立大模型,就像我们不需要一个破碎球在墙上钻孔一样。为特定任务设计的小模型可以完成很多工作。”
体量最小的SmolLM-135M模型尽管在训练阶段使用的token较少,但表现仍然优于Meta的MobileLM-125M。SmolLM-360M号称在性能上超越了所有参数低于5亿的模型。旗舰级模型SmolLM-1.7B则在多项基准测试中击败了微软的Phi-1.5、Meta的MobileLM-1.5B等模型。
值得一提的是,Hugging Face还将整个开发过程开源,从数据管理到训练步骤。这种透明度与公司对开源价值观和可重复研究的承诺相一致。
这些模型的出色表现归功于精心策划的训练数据。SmolLM基于Cosmo语料库构建,其中包括Cosmopedia v2(合成教科书和故事)、Python Edu(教育Python示例)和FineWeb Edu(精心策划的教育网络内容)。
“我们使用SmolLM获得的性能表明了数据质量的重要性。我们开发了创新的方法来精心策划高质量的数据,使用网络和合成数据的组合,从而创建了最好的小模型。”Loubna Ben Allal说道。
The End
相关阅读
- 比特网早报:ChatGPTAgent发布,马斯克预告将推出AI男友
- 中国能建签署乌兹别克斯坦光伏联合实验室合作备忘录
- 中信证券:数据要素产业指数 聚焦驱动经济“新”要素
- 比特周报:国家数据局正式揭牌,研究表明大模型可高度精准推断用户隐私
- 和谐共生!迈贝特渔光互补光伏技术构建环保生态养殖
- 德州仪器2025技术全景:赋能智能汽车、机器人、能源与边缘AI创新
- 手机高温禁区突围 英麦科半导体薄膜电感160℃・1000H极限实验可靠性实证报告
- NAND Flash合约价全面上涨,11月涨幅最高65%!
- Gartner发布2024年影响技术提供商的重大趋势
- 腾讯云与IBM共同打造“高性能计算服务解决方案”