文章上線

安全研究人員對 Anthropic 在 Fable 上設置的嚴格防護措施感到挫折

安全研究人員對 Anthropic 在 Fable 上設置的嚴格防護措施感到挫折

前言

背景:

Anthropic 最近發佈了 Fable,一個公開的、受限版本的其先進網路安全模型 Mythos。此發布旨在在提供更廣泛存取的同時降低該模型被濫用以製作惡意軟體或促成其他有害活動的風險。然而,部分資安社群批評 Fable 的 過度謹慎的防護措施,認為它們干擾了合法研究和日常工作。本文總結了所提出的擔憂,說明 Anthropic 採取此策略的理由,並探討存取與安全之間的取捨。

要點摘要

主要結論:Fable 的 嚴格防護措施 常常阻擋無害的資安相關查詢,將使用者導向後備模型,令安全專業人士感到挫折。雖然此舉旨在防止濫用,但這些措施可能妨礙像程式碼審查或部落格分析等合法工作。Anthropic 的更廣泛策略延續了先前對 Mythos 的有限釋出,並包括針對經查核使用者的應用型資安驗證計劃。

主體內容

Anthropic 將 Fable 推出為 Mythos(其旗艦網路安全模型)的一個公開、受限版本,聲稱目的是在更廣泛的存取與降低促成有害活動風險之間取得平衡。公司的擔憂是有根據的:若被濫用,先進生成式模型可能協助製作惡意軟體、發掘漏洞,甚至促成生物威脅。為此,Anthropic 實施了會識別並阻擋其判定與網路安全或生物學有關提示的防護機制。當觸發時,Fable 會停止對話並通知使用者安全措施標記了該內容。

資安研究人員與從業者對這些防護在實務上如何運作表達了強烈意見。多位專業人士報告,即使是無害或例行的任務——例如閱讀有關安全議題的部落格文章或要求程式碼審查——也可能觸發模型的保護機制。評論者形容這種行為經常以關鍵字為驅動:當提示包含與資安領域相關的術語時,Fable 常假定高風險意圖並限制回應。因為在命中防護時 Fable 被設定為回退到 Anthropic 的 Claude Opus 4.8,使用者可能會發現得到的協助沒有預期的專業化。

批評者認為這種保守的阻擋不利於有成效的安全工作。例如,尋求安全編碼實務指導的開發者可能被迫得到更一般的軟體工程回答,而非量身的資安見解。長期資安專家 Matt Suiche 指出,當使用者請 Fable 協助撰寫安全程式碼時,模型將該請求視為可能危險並提供降級的輸出。其他研究人員觀察到,即使只是要求簡單的程式碼審查或針對某個漏洞的說明,也可能使對話中止。

Anthropic 的動機很明確:公司希望降低 Fable 被利用於惡意目的的可能性。對生物議題的限制來自於對模型被用於開發生物威脅的平行憂慮。Anthropic 先前在 Project Glasswing 的框架內推出 Mythos,該計劃限制存取於受信任的組織以保護關鍵基礎設施。近來,公司將 Mythos 的可用性擴展到多國的其他組織,顯示其正逐步朝在監督下更廣泛分發的方向轉變。

為支持謹慎做法的論者強調,負責任部署強大模型的複雜性。在早期釋出時,安全團隊常傾向於過度阻擋以避免明顯傷害。Suiche 建議,在此階段這是一個務實的決定:一開始過度限制並在公司建立信心且與資安從業者更密切協作後再放寬,比一開始就寬鬆更可取。他預期防護措施會演進,特別是在 Anthropic 與其他領先模型開發者深化與資安界的夥伴關係並從實際使用中學習之後。

為解決經查核專業人士的合理需求,Anthropic 設立了資安驗證計劃。經核准的申請人使用 Claude 進行與資安有關工作時會受到較少限制,從而允許更專業化與技術性的互動。OpenAI 也以其 Trusted Access for Cyber 採取類似路徑,反映出一個更廣泛的產業模式:對公眾提供較嚴格的控制,同時對經查核的專家授予擴展能力。

儘管有這些措施,該領域的許多人仍對目前的實作感到沮喪。常見抱怨集中在不可預測性——研究人員報告觸發機制不一致,並感覺是以關鍵字啟發式而非具情境感知的判斷來決定阻擋。這會擾亂工作流程、延誤調查,並降低本應協助安全開發與事故回應工具的實用性。

Anthropic 與其他開發者可以採取務實步驟以改善安全與效用之間的平衡。更好的情境意圖分析有助於區分有害意圖與正當研究。關於何者會觸發防護的透明文件、範例安全提示以及清楚的上訴或回饋管道,將減少專業使用者的摩擦。持續與資安社群合作,包括第三方稽核與紅隊演練,可找出邊緣案例並為更細緻的政策調整提供依據。

最終,開放存取與負責任部署之間的緊張關係並非 Anthropic 所獨有。所有釋出強大模型的組織都必須協商類似的取捨。雖然為防止濫用對公眾使用者造成一些暫時不便可能是必要的,但過於粗糙的限制風險會疏遠對模型改進與安全採用至關重要的專家社群。前進的道路很可能是一個反覆的過程:初期保守,隨後以數據、使用者回饋和跨部門合作為指引進行有針對性的放寬。

目前,Fable 可視為一個案例研究,說明向廣大受眾交付先進功能同時試圖減輕真實世界傷害時所面臨的挑戰。其防護反映出優先考量安全的謹慎立場,但社群的反應凸顯需要更細緻的控制,以允許合法的資安工作而不助長惡意者。隨著 Anthropic 精練其方法並通過驗證計劃擴展受查核的存取,研究人員期望防護措施會變得更智能、更透明且更可預測——在維持強健防護的同時減少不必要的阻礙。

關鍵見解表

面向 說明
防護行為 Fable 阻擋被標記為與網路安全或生物學相關的提示,並在觸發時回退到 Claude Opus 4.8。
對研究人員的影響 像程式碼審查或部落格分析等無害任務可能被阻擋,擾亂正常的安全工作流程。
理由 這些限制旨在降低諸如製作惡意軟體與開發生物威脅等濫用風險。
驗證計劃 Anthropic 的資安驗證計劃對經核准的專業人士授予較少限制;OpenAI 則提供類似的 Trusted Access for Cyber。
建議改進 強化具情境感知的意圖偵測、提供更清晰的文件,並加強與資安專家的合作。
最後編輯時間:2026/6/10

Mr. W

Z新聞專職作家