浏览：Transformer

【一文看懂】大模型能力的关键：“庞大参数量”和“海量训练数据”的作用与关系

2025-03-24阅读约需 9 分钟

大模型强大的能力背后，离不开两个关键要素：庞大的参数量和海量的训练数据。例如，阿里云通义千问旗舰版模型Qwen2.5-Max拥有高达3250亿参数，预训练数据超过20万亿tokens。3250亿的参数…

2025-03-18阅读约需 12 分钟

新智元报道【新智元导读】谷歌团队发现了全新Scaling Law！新方法DiLoCo被证明更好、更快、更强，可在多个数据中心训练越来越大的LLM。测试时计算之后，谷歌三大团队集众人之力，…

2025-03-13阅读约需 26 分钟

点击蓝字关注我们薛澜国务院参事、清华大学苏世民书院院长、人工智能国际治理研究院院长、中国科技政策研究中心主任近日，2025亚布力论坛第二十五届年会圆满举行。在【人工智能论坛】上，联…

2025-03-11阅读约需 5 分钟

在生命科学领域，人工智能（AI）正逐渐展现出巨大的潜力，为科研带来前所未有的突破。近日，美国Arc研究所与NVIDIA公司、斯坦福大学和加州大学伯克利分校等机构合作，发布了迄今为止最大的公开可用生物学…

1个月前阅读约需 7 分钟

Figure创始人：「我们仍在黑暗中摸索，但阶段性成果已足够推动产业。」美西时间凌晨三点，硅谷某创投机构会议室依旧灯火通明，屏幕上的数字每跳动一次，空气就凝重一分——因为一款名为Helix的模型在发布72小时后，让全球机器人概念股平均涨幅达38%