01技术前瞻
1.OpenAI:基于规则奖励改善模型安全行为
OpenAI 提出了一种新的偏好建模方法,该方法利用人工智能(AI)反馈,并且只需少量的人类数据。他们基于规则的奖励(RBR),使用一组规则来定义期望或非期望的行为(例如,拒绝不应带有评判性),并结合一个 LLM 评分器。与之前使用 AI 反馈的方法不同,他们的方法在 RL 训练中直接使用细粒度、可组合的、LLM 评分的少量样本提示作为奖励,从而实现了更大的控制、准确性和易于更新。
2.苹果推出 SlowFast-LaVA
苹果公司推出了一种无需额外训练的视频大语言模型——SlowFast-LaVA(SF-LaVA),其可以在不超出常用 LLM 的 token 预算的情况下,同时捕捉详细的空间语义和长距离的时间上下文。实验结果表明,SF-LaVA 在各种视频任务中的表现都优于现有的免训练方法。在某些基准测试中,SF-LaVA 的性能可与在视频数据集上进行微调的 SOTA 视频 LLM 媲美,甚至更好。
3.斯坦福大学推出 GET-Zero
来自斯坦福大学的研究团队推出了一种用于学习体现感知控制策略的模型架构和训练程序 GET-Zero,该架构无需重新训练即可立即适应新的硬件变化。通过使用 GET 模型和自建模损失,GET-Zero 能够对图形结构和链接长度的未知变化进行零样本泛化,比基准方法提高了 20%。
4.苹果团队推出 LazyLLM
来自苹果公司的研究团队提出了一种名为 LazyLLM 的新方法。它可以在预填充和解码阶段选择性地计算对预测下一个 token 很重要的 token 键值。与一次性剪枝 prompt 的静态剪枝方法相反,LazyLLM 允许语言模型在不同的生成步骤中动态地从上下文中选择不同的 token 子集,即使这些 token 子集可能在之前的步骤中被剪枝过。在各种任务的标准数据集上进行的大量实验表明,LazyLLM 是一种通用方法,可以与现有的语言模型无缝集成,在不进行微调的情况下显著加快生成速度。
5.CoD:利用诊断链实现可解释的医疗智能体
来自深圳市大数据研究院和香港中文大学的研究团队提出了诊断链(Chain-of-Diagnosis,CoD),从而提高基于大语言模型(LLM)的医疗诊断的可解释性。CoD 将诊断过程转化为一个反映医生思维过程的诊断链,提供了一个透明的推理路径。此外,CoD 还能输出疾病可信度分布,确保决策的透明度。利用 CoD,他们开发了 DiagnosisGPT,其能够诊断 9604 种疾病。
6.Cross Anything:让四足机器人在复杂地形中精确导航
来自上海期智研究院、浙江大学和上海交通大学的研究团队提出了由高级推理模块和低级控制策略组成的创新系统—Cross Anything System(CAS),它使机器人能够在复杂的 3D 地形中导航并到达目标位置。大量实验表明,这一系统可以在复杂的 3D 地形中准确、鲁棒地导航,其强大的泛化能力确保了它在室内外各种场景和地形中的应用。
7.微软:用“打破-修复”循环对齐语言模型
来自微软的研究团队介绍了对 Phi-3 系列语言模型进行安全对齐的方法。他们利用“打破-修复”循环,进行了多轮数据集整理、安全后训练、基准测试、红队测试和漏洞识别,以涵盖单轮和多轮场景中的各种危害领域。结果表明,在各种负责任的人工智能基准测试中,这种方法不断改进了 Phi-3 模型的性能。
8.牛津团队推出零样本音频描述框架
来自牛津大学的研究团队旨在以无需额外训练的方式生成电影和电视剧的音频描述(AD),他们利用视觉语言模型(VLM)和大语言模型(LLM)为这项任务开发了视觉和文本 prompt 策略。此方法名为 AutoAD-Zero,在生成电影和电视剧的 AD 方面表现出色,甚至可与某些根据真实AD 微调的模型相媲美,获得了 SOTA 级的 CRITIC 分数。
9.MINT-1T:开源多模态交错数据集
来自华盛顿大学和 Salesforce 的研究团队及其合作者,推出了迄今为止最广泛、最多样的开源多模态交错数据集——MINT-1T,其包含一万亿个文本 token 和 34 亿张图片,是现有开源数据集的 10 倍。实验表明,在 MINT-1T 上训练的 LMM 的性能可与在之前的领先数据集 OBELICS 上训练的模型相媲美。
点击“阅读原文”,获取更多大模型论文
02企业动态
1.Meta 推出 Llama 3.1 系列开源大语言模型
Meta 发布了他们最先进的开源大语言模型——Llama 3.1 系列,包括首个“前沿级”(frontier-level)的开源模型——Llama 3.1 405B。据介绍,Llama 3.1 405B 具有强大的灵活性、控制性和最先进的功能,可与 GPT-4o、Claude 3.5 Sonnet 等最优秀的闭源模型相媲美。此外,Llama 3.1 系列模型将上下文长度扩展到了 128K,并增加了对八种语言的支持。( 点击查看详情 )
2.Stability AI 推出 Stable Video 4D
Stability AI 研究团队推出了 Stable Video 4D(SV4D),这是一种用于生成多帧和多视角一致的动态 3D 内容的潜在视频扩散模型。在多个数据集上的广泛实验结果和用户研究,证明了 SV4D 在新型视角视频合成以及与先前工作相比的 4D 生成方面的先进性能。
3.智谱AI 推出 CogVideoX
CogVideoX 是一款人人可用、无需预约、无需排队的 AI 视频大模型。最快只需 30s,就能生成 6s 短视频,零门槛上手,小白可用,文生视频、图生视频两大功能现已同步上线。现在,用户可以在智谱清言的 PC 端、移动应用端以及小程序端快速体验。此外,清影(Ying)API 也已同步上线大模型开放平台 bigmodel.cn,企业和开发者通过调用API的方式,体验和使用文生视频以及图生视频的模型能力。( 点击查看详情 )
4.xAI:今年年底开发出全球最强 AI
日前,马斯克在社交媒体 X 上宣布,旗下 AI 初创公司 xAI 已开始在位于田纳西州的所谓孟菲斯超级集群(training cluster)上进行训练,号称这是“全球最强大的AI训练集群”。它拥有 10 万台液冷 H100 GPU,在一个单一的 RDMA 架构上运行,xAI 的目标是,到 2024 年 12 月训练出“按每项指标衡量都是全球最强大的 AI”。
5.Mistral AI 发布 Mistral Large 2
法国 AI 初创公司 Mistral AI 发布了全新旗舰开源模型 Mistral Large 2。该模型拥有 1230 亿个参数,可在单个 H100 节点上以高吞吐量运行,在代码生成、数学、推理等方面与其他尖端模型不相上下,并提供更强大的多语言支持和高级函数调用功能。
6.OpenAI 推出 SearchGPT 原型
OpenAI 推出了名为“SearchGPT”的 AI 搜索引擎原型。目前,该产品已开放候补名单进行小范围测试,据 OpenAI 发言人 Kayla Wood 表示,测试名额只有 10000 个。根据 OpenAI 发布的预览,在 SearchGPT 的主界面输入框中输入问题,就可以搜索到经过整理总结、并结构化呈现的答案。
7.Cohere 在新一轮融资中估值 55 亿美元
日前,Cohere 宣布完成 D 轮 5 亿美元融资,估值达到 55 亿美元。据悉,Cohere 新一轮融资的领投方为加拿大养老金投资管理公司 PSP Investments,其他新的投资者包括思科、日本富士通、AMD Ventures 以及加拿大出口信贷机构 EDC 等。目前,Cohere 已经帮助 Notion Labs、Oracle 等数百家客户来撰写网站文案、与用户沟通以及在产品中添加 AI 相关功能。
03政策法规
1.欧美多个监管机构就有效的 AI 竞争签署联合声明
美国、英国和欧盟的监管机构签署联合声明,旨在通过公平公开的竞争释放 AI 技术所能提供的机遇,并制定了维护公平竞争和保护消费者的共同原则。声明说,这四个监管机构将在各自法律的指导下,确保相关领域的有效竞争以及公平、诚实地对待消费者和企业。声明指出,在 AI 的助力下,各大厂商在市场推出的新服务具有巨大的潜在优势,但需要对其带来的风险保持警惕。
2.上海:创建国家人形机器人制造业创新中心
据财联社报道,上海印发《上海市促进工业服务业赋能产业升级行动方案(2024—2027年)》,其中提出,促进人工智能与制造业深度融合。聚焦人工智能在生产制造、研发设计中的落地应用,加快培育为制造业提供人工智能解决方案的供应商,开发故障分析、流程工艺等工业语料产品,推动工业大模型发展,促进制造业全流程智能化。创建国家人形机器人制造业创新中心,在汽车、电气设备生产和零部件加工等领域,打造一批人形机器人赋能制造应用场景,形成机器人生产解决方案。聚焦科学智能服务,强化大模型在药物筛选、分子结构预测、药品检验检测等方面的应用。
3.北京市发布“人工智能+”行动计划:2025 年底前推出百个优秀大模型
日前,《北京市推动“人工智能+”行动计划(2024-2025年)》对外发布。数据显示,2023 年全市人工智能产业核心产值突破 2500 亿元,全市已备案上线大模型 82 款,占全国比重超 4 成,位居全国第一。
《行动计划》更突出大模型的应用落地,聚焦人工智能对百行千业的赋能,从标杆应用、示范性应用、商业化应用等三个维度,谋划推动人工智能应用,构建大模型赋能经济社会发展的全景图。
2024 年是大模型应用元年。《行动计划》确定了发展目标,2025 年底,本市将通过实施 5 个对标全球领先水平的标杆型应用工程、组织 10 个引领全国的示范性应用项目、推广一批具有广泛应用前景的商业化应用成果,力争形成 3 到 5 个先进可用、自主可控的基础大模型产品、100 个优秀的行业大模型产品和 1000 个行业成功案例。
04专家观点
1.用 AI 训练 AI,模型会越来越笨
日前,来自牛津大学和剑桥大学的研究团队及其合作者,在一篇发表在 Nature 上的论文中称,模型在训练中使用自身生成的内容,会出现不可逆转的缺陷,逐渐忘记真实数据分布,从而导致模型性能下降,这就是“模型崩溃”(Model Collapse)。他们表示,用一个旧模型生成的数据去训练一个新模型,并非不可行,但必须对数据进行严格的过滤。( 点击查看详情 )
2.专家警告:AI 可能破坏全球和平与安全
日前,来自斯德哥尔摩国际和平研究所的 Vincent Boulanin 以及联合国裁军事务办公室的 Charles Ovink 以及其他合作者在 IEEE Spectrum 上刊文,呼吁 AI 从业者需要接受更多的培训,从而减轻 AI 可能带来的风险。他们在文章中指出,AI 的进步可能直接或间接威胁安全,比如通过 AI 驱动的聊天机器人制造虚假信息,或通过大语言模型(LLM)生成网络攻击代码。AI 从业者在整个 AI 技术生命周期中的决策,对风险缓解起着关键作用。(点击查看详情)
3.扎克伯格:开源 AI 才是前进的道路
Meta 创始人兼 CEO 马克·扎克伯格在 Meta 官网刊文称,AI 的发展正朝着开源模式发展,其中 Llama 模型系列正迅速赶上并有望超越闭源模型,成为业界最先进的选择。Meta 致力于推动开源 AI,认为这将有利于公司、行业和全世界,并致力于通过合作伙伴关系和生态系统建设,使 Llama 成为新的行业标准。
|点击关注我 👇 记得标星|
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。