Seeing Positives in False Positives

誤報警示——即系統將正常行為標記為可疑的事件——是多數防範金融犯罪專業人士面臨的重大難題。即便活動本身正常,防範金融犯罪工作人員仍需逐一審查並記錄其正常狀態。這項工作不僅會增加預算,而且枯燥乏味。審查成千上萬筆常規交易容易導致職業倦怠,進而引發人員流失,而這又需要重新培訓新員工,如此循環往復。因此,減少誤報成為首要任務,誤報越少,便能騰出越多資源用於具成效的調查。 儘管誤報存在諸多弊端,卻也有正面影響。例如,誤報是自動化交易監控系統的必然副產品。若無電腦化系統,銀行只能人工審查交易以排查可疑活動,這將是一項極其繁瑣的工作。此外,誤報還是絕佳的培訓工具。資深調查員的能力並非與生俱來,正是透過分析真正的與錯誤的誤報情況,學會區分正常交易和犯罪行為的。 當然,銀行也不希望防範金融犯罪專業人員深陷繁雜事務,但完全消除誤報絕非正確的目標。相反,銀行應集中精力採取管理策略。 Popper 的天鵝 要討論誤報,我們先從它們的起源說起。自動化交易監控工具旨在識別可疑活動,但不可避免地會產生兩類錯誤。第一種被稱為「第一型錯誤」,即我們所熟悉的誤報。這一術語源於統計學中的假設檢定。假設檢定的基本前提是觀察並非證明。要僅憑觀察來證實某事,就需要在所有情況下、所有場景中都觀察到該現象,這對人類或電腦來說都是不可能的。然而,人類可以透過單一觀察來駁斥一件事。正如哲學家 Karl Popper 所解釋的,觀察到白天鵝並不能證明「所有天鵝都是白色的」,但只需發現一隻黑天鵝就可以推翻這個說法。1 假設檢驗始於一個關於總體特徵的假設或理論。就像 Popper 的白天鵝一樣,我們試圖推翻這個理論。這個可駁斥的假設被稱為「虛無假設」。當我們在假設檢驗中成功地推翻了虛無假設,檢驗便是成功的,就像 Popper 的黑天鵝一樣。 我們可以把交易監控規則視為一種假設檢驗。如果我想識別分散現金存款以逃避現金交易報告的犯罪行為,我的虛無假設便是這些分散交易並不可疑。我的樣本是以試圖進行分散交易的客戶典型行為作為基礎。這種行為可能包括客戶在一天內進行了多次現金交易,每筆金額都低於 10,000 美元,但一天總額超過 10,000 美元。當我的交易監控系統產生警報時,就是透過警報告知「這筆交易可疑」來拒絕虛無假設。當調查員處理警報並認定交易「不可疑」時,我們得出的結論是:系統產生了第一型錯誤,即誤報,因為它錯誤地拒絕虛無假設。 逆向錯誤 假設檢驗的一大優勢在於,它能夠在不觀察總體的情況下得出關於總體特徵的結論。這一過程被稱為「抽樣」,儘管有用,卻也伴隨著風險。我們如何確保樣本能夠充分代表總體?假設檢驗透過評估樣本出錯的可能性來應對這一風險。檢驗的設計部分包括確定檢驗錯誤拒絕虛無假設(即產生第一型錯誤)的頻率。第一型錯誤的發生率被稱為檢驗的阿爾法值 (ɑ)。預期阿爾法值與實際阿爾法值之間的關係能夠告知研究者樣本是否可靠。如果誤報的數量低於檢驗預期阿爾法值,研究者便可以認為檢驗所用的樣本是可靠的,其結論可以合理地適用於整體。一般假設檢驗的預設阿爾法值為 5%。 大多數防範金融犯罪專業人士都希望交易監控檢驗能達到這一水準,因為多數防制洗錢模型的誤報率通常高達 95%。 2 為何如此?金融行業對誤報的高容忍度,源於這些檢驗還存在另一種錯誤:第二型錯誤,即「漏報」。漏報是指系統本應發出警報的交易卻未觸發警報,也就是說,檢驗在本應拒絕虛無假設時未能拒絕。 第二型錯誤的發生率被稱為檢驗的貝塔值 (β)。檢驗的阿爾法值與貝塔值之間呈反比關係。檢驗產生的誤報越多,出現漏報的可能性就越低。因此,金融機構在實踐中容忍較高的阿爾法值,因為我們無法接受較高的貝塔值——我們不願遺漏任何可疑活動。 遺憾的是,遺漏可疑活動的情況很容易發生。事實是,大多數銀行交易都是正常的——虛無假設是正確的。當某一事件的發生機率很低時,例如數十萬客戶中僅有一名是犯罪分子,要發現這種低機率事件就需要足夠大的樣本量,而這必然包含大量誤報。 不過,銀行既無義務也不被期望捕獲所有的可疑活動。這是好事,因為自動化交易監控系統永遠不會完美無缺。事實上,監管機構關於模型風險管理的指引明確指出,每個模型都存在缺陷。3 美聯準會在其模型風險管理指引中表示:「所有模型都存在一定程度的不確定性和不準確性,因為它們本質上是對現實的簡化和模擬。」4 監管機構並不要求完美,而是希望銀行清楚交易監控系統生成誤報和漏報的方式。因此,作為終端用戶,您的目標不應是完全消除誤報或漏報,因為這不可能實現。相反,您應該了解工具產生的誤報和漏報數量,並確保監控系統的誤報率和漏報率保持在可控程度。 金融犯罪中運用人工智慧能的現實情況——人工判斷仍然重要 您是否熟悉人工智慧的炒作週期?Gartner 將其描述為圍繞使用人工智慧工具所產生的進展與興奮情緒。5 其特點是先經歷一段樂觀期,隨後出現不切實際的期望,最終達到符合現實情況的平衡階段。6 隨著人工智慧繼續佔據新聞頭條並融入我們的日常生活,我們可能正接近「期望膨脹的頂峰」,即期望超出現實。 金融機構也不例外。銀行正在廣泛採用人工智慧工具以輔助交易監控、詐欺偵測和警報分類,期望能去除人工監控並大幅減少誤報。然而,現實是,人工智慧並非萬能,它也帶來了一些關鍵問題。人工智慧工具和傳統的基於規則和人工的方法一樣,容易產生誤報和漏報。當人工智慧進入理想化階段時,金融機構必須謹慎行事,並評估用人工智慧替代人類監控的趨勢。 人工智慧在打擊金融犯罪的持續戰鬥中確實能發揮重要作用,特別是在模式識別方面。然而,一個主要問題是,資深防範金融犯罪調查人員有能力理解複雜背景和作出細緻判斷,但人工智慧缺乏此種能力。人工智慧工具根本無法匹敵人類分析全局的能力。 例如,假設一位客戶 John Doe 正在分散交易一系列低額現金存款,每筆都略低於 10,000...
Seeing Positives in False Positives

误报警示——即系统将正常行为标记为可疑的事件——是多数反金融犯罪专业人士面临的重大难题。即便活动本身正常,反金融犯罪工作人员仍需逐一审查并记录其正常性质。这项工作不仅会增加预算,而且枯燥乏味。审查成千上万笔常规交易容易导致职业倦怠,进而引发人员流失,而这又需要重新培训新员工,如此循环往复。因此,减少误报成为首要任务,误报越少,便能腾出越多资源用于高效的调查。 尽管误报存在诸多弊端,却也有积极作用。例如,误报是自动化交易监控系统的必然副产品。若无计算机化系统,银行只能人工审查交易以排查可疑活动,这将是一项极其繁琐的工作。此外,误报还是绝佳的培训工具。高级调查员的能力并非与生俱来,正是通过分析真实与误报警报,学会区分正常交易和犯罪行为的。 当然,银行也不希望反金融犯罪专业人员深陷繁杂事务,但完全消除误报绝非正确的目标。相反,银行应专注于采取策略加以管理。 Popper 的天鹅 要讨论误报,我们先从它们的起源说起。自动化交易监控工具旨在识别可疑活动,但会不可避免地产生两类错误。第一种被称为“第一类错误”,即我们所熟悉的误报。这一术语源于统计学中的假设检验。假设检验的基本前提是观察并非证明。要仅凭观察来证实某事,就需要在所有情况下、所有场景中都观察到该现象,这对人类或计算机来说都是不可能的。然而,人类可以通过单一观察来证伪一件事。正如哲学家 Karl Popper所解释的,观察到白天鹅并不能证明“所有天鹅都是白色的”,但只需发现一只黑天鹅就可以推翻这个说法。1 假设检验始于一个关于总体特征的假设或理论。就像 Popper 的白天鹅一样,我们试图推翻这个理论。这个可证伪的假设被称为“零假设”。当我们在假设检验中成功地推翻了零假设,检验便是成功的,就像 Popper 的黑天鹅一样。 我们可以把交易监控规则视为一种假设检验。如果我想识别通过现金存款拆分交易以逃避现金交易报告的犯罪行为,我的零假设便是这些结构化交易并不可疑。我的样本基于试图进行拆分交易的客户典型行为。这种行为可能包括客户在一天内进行了多次现金交易,每笔金额都低于 10,000 美元,但总额超过 10,000 美元。当我的交易监控系统生成警报时,它实际上是通过声称“这笔交易可疑”来拒绝零假设。当调查员处理警报并认定交易“不可疑”时,我们得出的结论是:系统产生了第一类错误,即误报,因为它错误地拒绝了零假设。 逆向错误 假设检验的一大优势在于,它能够在不观察总体的情况下得出关于总体特征的结论。这一过程被称为“抽样”,尽管有用,却也伴随着风险。我们如何确保样本能够充分代表总体?假设检验通过评估样本出错的可能性来应对这一风险。检验的设计部分包括确定检验错误拒绝零假设(即产生第一类错误)的频率。第一类错误的发生率被称为检验的阿尔法值 (ɑ)。预期阿尔法值与实际阿尔法值之间的关系能够告知研究者样本是否可靠。如果误报的数量低于检验预期阿尔法值,研究者便可以认为检验所用的样本是可靠的,其结论可以合理地推广至整体。一般假设检验的默认阿尔法值为 5%。 大多数反金融犯罪专业人士都希望交易监控检验能达到这一水平,因为多数反洗钱模型的误报率通常高达 95%。2 为何如此?金融行业对误报的高容忍度,源于这些检验还存在另一种错误:第二类错误,即“漏报”。漏报是指系统本应发出警报的交易却未触发警报,也就是说,检验在本应拒绝零假设时未能拒绝。 第二类错误的发生率被称为检验的贝塔值 (β)。检验的阿尔法值与贝塔值之间呈反比关系。检验产生的误报越多,出现漏报的可能性就越低。因此,金融机构在实践中容忍较高的阿尔法值,因为我们无法接受较高的贝塔值——我们不愿遗漏任何可疑活动。 遗憾的是,遗漏可疑活动的情况很容易发生。事实是,大多数银行交易都是正常的——零假设是正确的。当某一事件的发生概率很低时,例如数十万客户中仅有一名是犯罪分子,要发现这种低概率事件就需要足够大的样本量,而这必然包含大量误报。 遗憾的是,遗漏可疑活动的情况很容易发生。事实是,大多数银行交易都是正常的——零假设是正确的。当某一事件的发生概率很低时,例如数十万客户中仅有一名是犯罪分子,要发现这种低概率事件就需要足够大的样本量,而这必然包含大量误报。3 美联储在其模型风险管理指导中表示:“所有模型都存在一定程度的不确定性和不准确性,因为它们本质上是对现实的简化和模拟。”4 监管机构并不要求完美,而是希望银行清楚交易监控系统生成误报和漏报的方式。因此,作为终端用户,您的目标不应是消除误报或漏报,这是不现实的。相反,您应该了解工具产生的误报和漏报数量,并确保监控系统的误报率和漏报率保持在可控水平。 金融犯罪中的人工智能现实——人类判断仍然重要 您是否熟悉人工智能的炒作周期?Gartner 将其描述为围绕使用人工智能工具所产生的进展与兴奋情绪。5 其特点是先经历一段乐观期,随后出现不切实际的期望,最终达到与现实相匹配的平衡阶段。6 随着人工智能继续占据新闻头条并融入我们的日常生活,我们可能正接近“期望膨胀的顶峰”,即期望超出现实。 金融机构也不例外。银行正在广泛采用人工智能工具以辅助交易监控、欺诈检测和警报分类,期望去除人工监控并大幅减少误报。然而,现实是,人工智能并非万能,它也带来了一些关键问题。人工智能工具和传统的基于规则和人工的方法一样,容易产生误报和漏报。当人工智能进入理想化阶段时,金融机构必须谨慎行事,并评估用人工智能替代人类监控的趋势。 人工智能在打击金融犯罪的持续战斗中确实能发挥重要作用,特别是在模式识别方面。然而,一个主要问题是,人工智能缺乏资深反金融犯罪调查人员所具备的理解复杂背景信息和作出细致判断的能力。人工智能工具根本无法匹敌人类分析全局的能力。 例如,假设一位客户 John Doe 正在拆分交易一系列低价值现金存款,每笔都略低于 10,000 美元的阈值,将其分散在看似属于不同企业的账户中,如“John 家电”和“Doe...