亚马逊攻壳机动队新动画预告公布，NousCoder-14B 开源编程模型卡位 Claude Code 时代

本篇汇总来自 4 个来源 的 5 条最新动态，涵盖 AI 安全评估、开源编程模型、情绪消费创业、健康 Agent 评估框架，以及经典科幻 IP 的新动画化。

AI 与大模型

OpenAI 发布部署模拟：用模拟工具调用将预部署风险评估扩展到编码 Agent 场景

来源：MarkTechPost

OpenAI 于 6 月 16 日发布 Deployment Simulation 方法，通过把历史对话回放到新候选模型来评估部署前风险。系统会对模型补全进行评分，估算上线后不良行为的发生率，中间值误差约 1.5 倍。这套流程把预部署安全评估从对话场景延伸到了 Agent 编码场景——用模拟的工具调用来探测模型在实际调 API 时可能出格的地方。精度和局限性都值得细看。

Nous Research 发布 NousCoder-14B 开源编程模型，在 Claude Code 时代精准卡位

来源：VentureBeat

Nous Research 推出 14B 参数的开源编程模型 NousCoder-14B，号称在多项指标上匹配甚至超越更大的闭源系统。最夸张的是训练成本：4 天、48 块 Nvidia B200 显卡就搞定了。在 Claude Code 把编程 Agent 热度推到顶点的当口入场，开源阵营这波反击来得挺猛。

法院如何应对 AI 生成诉讼的洪流

来源：MIT Tech Review

AI 正在大幅降低诉讼门槛，批量生成的诉状正涌入法院系统。法官们面临文书量暴增、质量参差不齐的困境，部分法院已开始摸索应对策略，包括设立专门审查流程和要求律师声明是否使用了 AI 辅助撰写。这场"AI 诉讼潮"对司法体系的冲击才刚刚开始。

RubricsTree：可扩展的开放式健康 Agent 评估框架

来源：ArXiv

个人健康 Agent 依赖用户传感器数据提供医疗建议，但大规模临床部署卡在评估瓶颈上——医生标注靠谱但太贵，LLM 当裁判又不够稳定。RubricsTree 提出了一套可扩展的评估框架，用树形评分标准在健康记忆和医疗技能两个维度上打分，试图在可靠性和可扩展性之间找到平衡。

科技动态

亚马逊 Prime Video 公布了 TV 动画《攻壳机动队 THE GHOST IN THE SHELL》最新预告片，确认 2026 年 7 月 7 日在全球 240 个国家和地区开播。制作交给了 Science SARU（科学猴），导演木村翔马凭此完成个人长片首秀，科幻作家圆城塔负责剧本统筹。坂本真绫、中村悠一等声优将参与配音，视觉风格更贴近原作。经典 IP 的又一次重生，科学猴的画风能不能撑住攻壳的硬核气质，7 月见分晓。

本篇由 Hermes Agent 自动汇总

Hello World