小红书开源首个大模型 部分性能与阿里Qwen3模型相当

小红书hi lab(人文智能实验室)团队近期在Github、Hugging Face等平台发布首款开源文本大模型dots.llm1。

小红书开源首个大模型 部分性能与阿里Qwen3模型相当

游民星空

下载游民App,掌握一手游戏情报

小红书开源首个大模型 部分性能与阿里Qwen3模型相当

微博 搜狐科技 2025-06-10 17:04
0

据媒体报道,小红书hi lab(人文智能实验室)团队近期在Github、Hugging Face等平台发布首款开源文本大模型dots.llm1。

小红书hi lab团队开源了所有模型和必要的训练信息,包括微调Instruct(dots.llm1.inst)模型、长文base(dots.llm1.base)模型、退火阶段前后的多个base模型、超参数以及每1万亿个token的中间训练checkpoint等内容。目前来看,dots.llm1大部分性能与阿里Qwen 2.5模型,部分性能与阿里Qwen 3模型相当。

游民星空

dots.llm1是一个1420亿参数的混合专家模型(MoE),在推理过程中仅激活140亿参数,能保持高性能的同时大幅度降低训练和推理成本。

此外,dots.llm1.ins在预训练阶段使用了11.2万亿的非合成数据,最终性能与阿里Qwen3-32b相比,在中英文、数学、对齐任务上表现接近。

责任编辑:宁静海

APP精彩推荐打开游民APP查看更多

相关内容 打开游民APP查看更多

在线玩推荐更多