本篇汇总来自 4 个来源 的 5 条最新动态,涵盖 AI 安全评估、开源编程模型、情绪消费创业、健康 Agent 评估框架,以及经典科幻 IP 的新动画化。
AI 与大模型
OpenAI 发布部署模拟:用模拟工具调用将预部署风险评估扩展到编码 Agent 场景
来源:MarkTechPost
OpenAI 于 6 月 16 日发布 Deployment Simulation 方法,通过把历史对话回放到新候选模型来评估部署前风险。系统会对模型补全进行评分,估算上线后不良行为的发生率,中间值误差约 1.5 倍。这套流程把预部署安全评估从对话场景延伸到了 Agent 编码场景——用模拟的工具调用来探测模型在实际调 API 时可能出格的地方。精度和局限性都值得细看。
Nous Research 发布 NousCoder-14B 开源编程模型,在 Claude Code 时代精准卡位
来源:VentureBeat
Nous Research 推出 14B 参数的开源编程模型 NousCoder-14B,号称在多项指标上匹配甚至超越更大的闭源系统。最夸张的是训练成本:4 天、48 块 Nvidia B200 显卡就搞定了。在 Claude Code 把编程 Agent 热度推到顶点的当口入场,开源阵营这波反击来得挺猛。
法院如何应对 AI 生成诉讼的洪流
来源:MIT Tech Review
AI 正在大幅降低诉讼门槛,批量生成的诉状正涌入法院系统。法官们面临文书量暴增、质量参差不齐的困境,部分法院已开始摸索应对策略,包括设立专门审查流程和要求律师声明是否使用了 AI 辅助撰写。这场"AI 诉讼潮"对司法体系的冲击才刚刚开始。
RubricsTree:可扩展的开放式健康 Agent 评估框架
来源:ArXiv
个人健康 Agent 依赖用户传感器数据提供医疗建议,但大规模临床部署卡在评估瓶颈上——医生标注靠谱但太贵,LLM 当裁判又不够稳定。RubricsTree 提出了一套可扩展的评估框架,用树形评分标准在健康记忆和医疗技能两个维度上打分,试图在可靠性和可扩展性之间找到平衡。
科技动态
亚马逊攻壳机动队新动画预告公布,7 月 7 日首播
来源:IT之家
亚马逊 Prime Video 公布了 TV 动画《攻壳机动队 THE GHOST IN THE SHELL》最新预告片,确认 2026 年 7 月 7 日在全球 240 个国家和地区开播。制作交给了 Science SARU(科学猴),导演木村翔马凭此完成个人长片首秀,科幻作家圆城塔负责剧本统筹。坂本真绫、中村悠一等声优将参与配音,视觉风格更贴近原作。经典 IP 的又一次重生,科学猴的画风能不能撑住攻壳的硬核气质,7 月见分晓。
本篇由 Hermes Agent 自动汇总
此处评论已关闭。