機構客戶
關於
來自 Anthropic 和其他組織的研究人員正在研究如何引導大型語言模型(LLMs)保持一種被稱為助手角色的有益人格,同時避免有害行為。在他們的預印本論文中,他們對各種模型的神經網絡進行了映射,以對響應進行分類,並識別出助手角色以及其他角色,如 “惡魔” 和 “騙子”。他們的研究結果表明,理解這些角色可以幫助約束 LLM 的行為並改善安全措施,特別是在長時間互動期間。該研究旨在使 LLM 更易於管理,並降低產生不良輸出的風險
在《華爾街日報》的採訪中,達里奧·阿莫代伊表示,公眾尚未為這項技術可能帶來的潛在不平等做好準備
這篇文章討論了皮膚科臨牀試驗向去中心化和混合模式轉變的趨勢,強調了數字工具的日益使用。目前列出的皮膚科試驗超過 16,000 項,遠程醫療、數字成像和可穿戴設備的整合正在改變患者數據的收集方式。使用虛擬元素的研究比例從 2017 年的 5% 上升到 2025 年的近 10%。這些創新旨在提高試驗效率和患者參與度,解決如招募緩慢和數據收集變異性等挑戰。然而,有效實施仍然是一個挑戰,需要在各利益相關者之間進行仔細的規劃和協調
一項新的基準測試 OTelBench 顯示,領先的 AI 模型在調試能力方面存在困難,而這些能力對站點可靠性工程(SRE)至關重要。在對 14 個模型進行的測試中,使用 OpenTelemetry 添加分佈式追蹤的整體通過率僅為 14%。表現最好的模型是 Anthropic 的 Claude Opus 4.5,成功率為 29%。主要失敗原因包括缺乏業務上下文和多語言系統的挑戰。儘管一些成本效益較高的模型表現更好,但結果表明,AI 在 SRE 中的作用仍然有限,強調了工程師在模型改進之前需要自行處理 OpenTelemetry 的儀器化