Pecados Originales

Una empresa estadounidense recuperó los datos de los clientes de su unidad de negocios de China, que los recibió de un almacén de datos en el Reino Unido y los controló con una lista regulatoria publicada por el gobierno chino y la Lista de Nacionales Especialmente Designados (SDN) de la Oficina para el Control de Activos Extranjeros (OFAC). Cuando el personal revisó los resultados de la selección, descubrió que no había coincidencias con la lista de revisión de la OFAC. ¿Podrían simplemente haber tenido mucha suerte?

Para nada.

Resulta que los datos de nombre y dirección de la empresa se almacenaron en chino simplificado. Esto permitió una correcta adecuación a la lista emitida por el regulador local, pero fue ineficaz para establecer coincidencias en otro juego de caracteres.

El comercio globalizado requiere conciliar el uso de los caracteres ISO Latin con sus letras inacentuadas conformándose estrictamente al alfabeto estándar del inglés (americano y británico), en muchas listas de datos emitidos por fuentes oficiales y de terceros (y en uso en la red SWIFT), a los muchos idiomas diferentes y/o conjuntos de caracteres específicos de cada país en uso en todo el mundo. En algunos lugares, el uso del conjunto de caracteres local es un requisito reglamentario; en Japón, el acceso a Zengin-Net (la red de compensación local) requiere datos de lengua japonesa, por ejemplo.

A falta de una forma viable para que coincidan con los datos que varían de idiomas y conjunto de caracteres, los oficiales de cumplimiento quedarían con una enorme cantidad de riesgo no identificado, con los casos de interés evadiendo la detección, todo por la falta de una tilde de repuesto, o la falta de software de transcripción/traducción adecuado.

¡Mi Reino por Una Disfonía!

Al final del día, el éxito de las operaciones de cumplimiento basadas en listas depende de tecnologías que permiten que dos cadenas de texto coincidan con un alto grado de certeza. Incluso la comparación de dos conjuntos de referencias a la misma persona o entidad por escrito en el mismo idioma podría no generar 100 por ciento de confianza. Los errores tipográficos (como la adición errónea de la letra “a” a la palabra “caballo” (en inglés horse ‘caballo’ con la “a” añadida se convierte en hoarse ‘disfónico’) y las variaciones en la ortografía, sin embargo, se pueden mitigar algo a través del uso de las tecnologías de concordancia de textos difusos. Pero, estas herramientas no dejan de tener sus limitaciones y consecuencias no deseadas.

Mientras que los sistemas de coincidencia aproximada (fuzzy matching en inglés) generalmente se basan en la determinación del número de diferencias entre la fuente y el texto meta, en última instancia, el “puntaje” numérico generado es un porcentaje aproximado del total del texto adaptado. Por lo tanto, a medida que uno se esfuerza para encontrar errores ortográficos en las cadenas más cortas, el umbral mínimo para identificar una diferencia disminuye. A medida que este umbral disminuye, el número de coincidencias adicionales aumenta—y el aumento es a menudo de naturaleza no lineal.

La coincidencia aproximada tiende a generar “datos tipo palo de hockey”, donde los cambios en los valores de umbral en el extremo superior del espectro generan pocas coincidencias adicionales (por ejemplo, la hoja de un palo de hockey), y los cambios por debajo de cierto punto de inflexión muestran incrementos geométricos en los resultados (por ejemplo, el eje del palo de hockey). La forma real de los resultados del palo de hockey depende en gran medida de la naturaleza de los datos de origen, sin embargo. Por ejemplo, mientras que un banco en el Medio Oeste de los EE.UU. vio un aumento del 25 por ciento en las coincidencias utilizando un umbral del 90 por ciento en su software, y un aumento del 100 por ciento a 85 por ciento, una compañía de seguros en Hong Kong experimentó un aumento del 100 por ciento a 90 por ciento y 1100 por ciento de aumento en 85 por ciento, con las mismas herramientas de monitoreo.

Incluso en los niveles más altos de confianza, es costoso, desde un punto de vista operativo, eliminar los falsos positivos sin revisar manualmente cada coincidencia. Si bien uno podría escribir las reglas del sistema para requerir la ortografía exacta de palabras cortas, por lo que “DC Internacional” no coincide con las sanciones que se enumeran para “AC Internacional”, ¿cómo se puede evitar que una persona con el nombre de “Carolina Hernández” coincida con el de una persona diferente designada por la OFAC llamada “Carolina Fernández González”, sin abandonar la coincidencia aproximada por completo?

Y estos son los casos fáciles, donde no hay problemas de idioma.

Translittération Très Basique

Si bien la superación de los problemas de traducción nunca es fácil, el más fácil de los dos desafíos de coincidencia de textos recae en alfabetos que son, básicamente, como el conjunto de caracteres ISO Latin, con métodos de transliteración relativamente sencillos. Muchos de los idiomas europeos usan caracteres latinos principalmente, potencialmente con signos diacríticos como diéresis, acentos y signos de intercalación. Estas transcripciones en ISO Latin son sencillas: Eliminar la marca y utilizar la versión sin acento. Si bien hay excepciones (por ejemplo, la ß alemana y la espina utilizada en islandés), la transformación necesaria de los datos para que coincida con el formato de la mayoría de las listas de selección de cumplimiento es relativamente fácil y debe dar lugar a resultados predecibles.

De manera similar, las letras de alfabetos no latinos, como el coreano y griego, con sonidos sin inflexión ortográficamente similares a las lenguas que usan letras del alfabeto latino, se transforman de manera fiable para las coincidencias.

Es Difícil de Decir

Cuanto más se aleja uno de los caracteres latinos y vocalizaciones occidentales (por ejemplo, de Europa y América), la transliteración menos directa a los caracteres latinos se hace más difícil. Incluso para lenguas alfabéticas como el árabe, el ruso y el hindi, la falta de un esquema de conversión aplicable complica los esfuerzos de cumplimiento, ya que requiere umbrales difusos de coincidencia inferiores para dar cuenta de las variantes de transcripciones. Considere la siguiente lista parcial de ortografía para uno de los nombres masculinos más comunes en árabe:

Mohamed	Mohamad	Muhamed	Muhamad	Mahamed	Mahamad	Muhamet
Mohammed	Mohammad	Muhammed	Muhammad	Mahammed	Mahammad	Muhammet

Mientras que algunos sistemas de coincidencia consideran que tales variaciones conocidas son sustitutos intercambiables entre sí (por ejemplo, “Muhammet” y “Mohamed” coinciden exactamente), otros producen puntajes menores incluso para variaciones ortográficas conocidas. Estrictamente hablando, por ejemplo, “Muhammet” y “Mohamed” tienen tres diferencias de edición para las ocho letras en “Muhammet”, lo que podría representar un puntaje tan bajo como 62.5 por ciento para ese nombre.

Y “Mohamed” es un nombre común—es muy poco probable que cualquier base de datos de variaciones ortográficas de nombres sea tan comprehensivo que tenga más que los nombres y apellidos más comunes. Para complicar aún más las cosas, la falta de normas de transliteración internacionales exigibles no garantiza resultados consistentes y predecibles, y mucho menos de alta calidad, especialmente con los nombres menos comunes—antes de considerar los posibles errores tipográficos.

Uno podría suponer, debido a su estructura radicalmente diferente, que las lenguas pictográficas como el japonés y el chino presentarían un ambiente aún más desafiante. Sin embargo, el factor determinante es la pronunciación subyacente, no la representación visual. Por una parte, la transliteración estándar del japonés (Romaji), y sus vocalizaciones que son ortográficamente similares al inglés hacen transformar pictogramas kanji a caracteres latinos una labor bastante sencilla. La transliteración del chino, por otra parte, presenta los mismos desafíos como alfabetos para vocalizaciones de los alfabetos bien alejados de las lenguas europeas.

Difuso, ¿verdad?

Los desafíos técnicos antes mencionados parecen claros y formidables. Ser capaz de explicar las variaciones de ortografía o traducciones de los nombres comunes bien escritos, como Mohamed o Mehmet exige necesariamente tecnologías como la coincidencia aproximada que aumentan el número de falsos positivos. Ese aumento en el costo operacional se ve agravado al representar un nombre normalmente no escrito en un alfabeto latino en caracteres utilizados en las redes de mensajería internacionales estándar como SWIFT, especialmente en ausencia de normas de obligado cumplimiento para la transliteración. ¿Cómo podría establecerse un equilibrio entre los costes operativos adicionales de extender una amplia red y los riesgos de cumplimiento de no hallar un nombre específico en un programa basado en el riesgo?

Hay dos retos por considerar: lograr la coincidencia de manera efectiva, y realizar la traducción/transcripción de una manera predecible para que la coincidencia sea eficaz

Hay dos retos por considerar: lograr la coincidencia de manera efectiva, y realizar la traducción/transcripción de una manera predecible para que la coincidencia sea eficaz. Las dos secciones siguientes proporcionan información sobre los dos enigmas.

A Través del Espejo

La firma estadounidense mencionada al principio de este artículo, cuando se la enfrentó a la falta de coincidencia en los conjuntos de caracteres, experimentó con traducir su base de datos de más de un millón de nombres a caracteres latinos. Descubrieron que las soluciones disponibles producen un índice de exactitud insatisfactoria de aproximadamente 80 por ciento. Incluso con un 99 por ciento de precisión, la empresa habría tenido que reparar manualmente más de 10.000 traducciones, así como repetir el proceso para cada nuevo registro de cliente. No era una estrategia viable dada la expectativa de pocos, si algunos, registros que requerirían investigación sustancial.

La alternativa consiste en invertir el paradigma y traducir la lista con la que se compara. Las ventajas de este enfoque, tanto para los proveedores de datos como para los clientes son significativas. Los clientes no tendrían la carga operativa constante de la gestión de los problemas de idioma, mientras que los proveedores de datos tendrían una lista localizada más atractiva para un mercado local. También coloca correctamente la carga de proporcionar datos precisos, y es capaz de justificar el esquema de traducción/transliteración, en el proveedor de datos, que es la parte con experiencia en el tema.

Además, puramente desde una perspectiva de la eficiencia, la transliteración de miles o decenas de miles de listados de reglamentación (algunos de los cuales ya facilitan el nombre en el idioma nativo) utiliza mucho menos tiempo que hacer lo mismo para millones de registros de clientes. Del mismo modo, a través del tiempo, las listas reguladoras tienen menor número de nuevos registros que los de las bases de datos de los clientes.

Perdido por Poco

El segundo factor por considerar es cómo uno estructura un programa de coincidencia de lista de cumplimiento. Esto depende de varios factores, incluyendo la tolerancia de riesgo de uno y el entorno regulatorio, así como las consideraciones específicas de idioma.

Si los nombres en el país de interés (COI) son normalmente cortos, ello requiere un entorno bastante bajo para cualquier software de coincidencia aproximada, como se mencionó anteriormente. Lograr la coincidencia de “Ng Sor Hong” (designado por OFAC bajo el programa de sanciones de Birmania), por ejemplo, puede requerir un ajuste de 80 por ciento en un sistema que calcula el porcentaje estricto de letras emparejadas, sólo para atrapar una sola falta de ortografía en los dos nombres más cortos. Como se ve en los ejemplos anteriores, esto puede hacer que el número de elementos totales por revisar se dispare.

Mientras que tales ejemplos delinean claramente los límites prácticos de la identificación de posibles coincidencias de cadenas cortas, no se sigue que hay que tirar la toalla en el tema de la coincidencia aproximada. En tal caso, hay alternativas para manejar la carga de trabajo con un mínimo riesgo si acaso existe. Si los nombres que se van a monitorear se pueden separar en nombres nativos y no nativos, los dos conjuntos de datos pueden ser considerados con los ajustes más adecuados a su naturaleza (por ejemplo, 80 por ciento para los nombres de Birmania, y el 90 por ciento para los nombres no birmanos). Del mismo modo, los ajustes generales para el uso de la lógica difusa se pueden ajustar para la función de cumplimiento real que se realiza de tal manera que el nivel de detección de error es proporcional al riesgo operativo. Por ejemplo, la detección de sanciones, que identifica a las personas que se cree que han participado en las actividades y/o asociaciones embargadas específicas, normalmente utiliza ajustes diseñados para producir un mayor número de coincidencias. Por el contrario, la detección de las personas expuestas políticamente (PEP), de personas que no figuran como inherentemente criminales o persona non grata, por lo general no implica la extensión de una amplia red para atrapar nombres mal escritos, si no limitar los resultados de coincidencias compatibles solamente.

¿La última frontera?

Sería muy bueno decir que estos dos elementos (utilizando datos y segmentación para gestionar los tipos de coincidencias, y conseguir que los proveedores de datos traduzcan las listas reguladoras) sería una panacea para todas las necesidades de listas de coincidencia de cumplimiento, pero no sería exacto. Hay dos obstáculos más que es poco probable que se abordarán en el corto o mediano plazo.

El primer desafío es que el alcance de la lista reglamentaria de transliteración o traducción probablemente se limite al nombre de la entidad en un listado. La traducción de una lista completa (en particular algunos de los listados de sanciones, que incluyen largas explicaciones de las actividades que conducen a la designación) a múltiples idiomas requiere mucha más experiencia que la transcripción de un nombre. Además, mientras se está efectuando la coincidencia con un nombre en un idioma específico, eso no implica que la lengua sea la misma que entiende el revisor, y mucho menos el personal de cumplimiento central o el personal jurídico responsable de relaciones con los reguladores. ¿Una entrada en una lista de la OFAC del funcionamiento chino de un banco árabe aparecerá en inglés, árabe, chino—o los tres, para estar seguro? Parece que, por el momento al menos, el inglés puede tener que seguir siendo la lingua franca de las listas de cumplimiento.

En segundo lugar, las listas de PEP disponibles en el mercado muy poco probablemente se transcribirán o traducirán en el corto plazo, si alguna vez. Una cosa es traducir una lista de miles o decenas de miles de listados de los cuales pocos cambian en un año determinado; otra cosa es traducir una lista de cientos de miles de personas que está sujeta a cambios al por mayor al capricho de un voto de censura. Es probable que, con el fin de identificar a las PEP, las empresas tendrán que traducir sus nombres no nativos a caracteres latinos (o al idioma original) a los efectos de las coincidencias, y se basan en los proveedores de datos para proporcionar los nombres locales en el idioma local. Eso parece ser una componenda razonable que requeriría a los titulares de los datos conocer el nombre de cada persona o entidad que aparece en el idioma original.

Cómo da Vueltas el Mundo

Puede ser una exageración, pero desde que la Torre de Babel fue erigida, nunca ha sido tan onerosa la diversidad de la humanidad, por lo menos para los oficiales de cumplimiento. Una economía más global conduce simultáneamente a más globalización de las necesidades de cumplimiento y los esfuerzos, y la necesidad de un mayor soporte de localización. La mejor manera de alcanzar estos objetivos expansivos y fluidos es a través de la colaboración entre proveedores de soluciones y los clientes que valoran su experiencia. La alternativa obliga a las empresas reguladas a importantes costos operacionales y sistemas innecesarios, así como a la carga de desarrollar y mantener competencias no básicas que pertenecen justamente a los proveedores de soluciones.

Eric A. Sohn, CAMS, director de producto de negocios, Dow Jones Risk & Compliance, Nueva York, NY, EE.UU., eric.sohn@dowjones.com