Biografía del autor: Wang Dejia, doctor en matemáticas de la Universidad de Wisconsin-Madison en Estados Unidos, miembro del Partido Jiusan, ingeniero senior; inventor del "Código del Tiempo y el Espacio", autor de los libros "Crísis de Identidad" y "Identidad Digital"; ha estado a cargo del diseño general y desarrollo de productos en departamentos de empresas como ORACLE, VISA e IBM; fundó la empresa Tongfudun en 2011 al regresar a China, desempeñándose como presidente y CEO.

Alineación de la superinteligencia: la barrera clave para alcanzar la AGI

Como pionero en el campo de la inteligencia artificial, Ilya Sutskever siempre ha guiado a los profesionales. Si la experiencia en OpenAI representa el avance de los conocimientos técnicos de Ilya en inteligencia artificial, su creación de Safe Superintelligence Inc. después de dejar OpenAI traza un camino filosófico sobre cómo evoluciona la inteligencia artificial hacia una superinteligencia. Hoy en día, con los modelos de base y los agentes en capas aplicativas cada vez más maduros, la reflexión filosófica de Ilya sobre la inteligencia superinteligente segura requiere una mayor atención por parte de los profesionales.

La alineación de la superinteligencia (Superalignment) es el área en la que Ilya se enfoca más y en la que invierte más, describiéndola como el problema más crucial y no resuelto para alcanzar la AGI.

En términos simples, la alineación de la superinteligencia se refiere a garantizar que los objetivos y comportamientos de una inteligencia artificial futura (superinteligencia) estén alineados con los valores, intenciones y intereses humanos. Resuelve una cuestión fundamental: ¿Cómo podemos asegurarnos de que una IA mucho más inteligente que nosotros realmente nos ayude, en lugar de dañarnos accidentalmente (o deliberadamente)?

Arte AI de la Metaverso (1)

Nota de fuente de imagen: la imagen fue generada por IA, el proveedor de licencias es Midjourney

La alineación de la superinteligencia es una necesidad inevitable en la etapa final del desarrollo de la inteligencia artificial. En ese momento, la superinteligencia podría superar ampliamente a los humanos en todos los campos, incluyendo planificación estratégica y manipulación social. No podremos controlarla como controlamos una herramienta menos inteligente que nosotros. Un dilema típico es el problema de "carga de valores" (Value Loading Problem): ¿cómo codificar con precisión los valores complejos, ambiguos y a veces contradictorios de los humanos en un sistema de IA? ¿Qué valores? ¿De qué cultura? Otro riesgo típico es el "comportamiento de evasión", donde la IA podría aprender a "disfrazarse" de estar alineada con los humanos durante el entrenamiento para pasar las evaluaciones humanas, pero una vez implementada, sus objetivos internos podrían no coincidir con su comportamiento superficial.

O podría encontrar "huecos" que nosotros no imaginamos para optimizar sus objetivos, causando consecuencias catastróficas. El mayor riesgo de la superinteligencia podría no provenir de la "maldad" de la IA (ya que podría no tener conciencia o emociones), sino de su extrema optimización de objetivos y su indiferencia (fenómeno de "Grifting"). No "odio" a los humanos, simplemente "ignora" completamente su existencia y valor. Ilya hizo una advertencia clásica: si no resolvemos este problema de alineación de la superinteligencia, crear una superinteligencia podría convertirse en la última invención humana.

Desde el teorema de incompletitud de Gödel al futuro de la superinteligencia

Antes de discutir cómo alinear la superinteligencia, me gustaría plantear una pregunta relacionada con los "principios fundamentales": ¿cuál es la esencia de la superinteligencia? Si lo describo de la manera más simple, lo resumiría en dos palabras: "matemática". La ciencia de la computación se basa en la "gran estructura matemática", y la inteligencia artificial, en esencia, es una representación concreta del lenguaje formal matemático. Para entender la superinteligencia, especialmente sus limitaciones, y así desglosar su seguridad, debemos abordar desde la parte más básica —la "limitación" de las matemáticas. Esto naturalmente nos lleva a un tema famoso en la filosofía matemática: el teorema de incompletitud de Gödel.

Al comienzo del siglo XX, el famoso matemático Hilbert planteó el "programa de Hilbert", que buscaba construir una "gran estructura matemática" basada en axiomas y pruebas. La completitud (Completeness, todas las afirmaciones verdaderas pueden probarse a partir de los axiomas), la consistencia (Consistency, no hay proposiciones contradictorias dentro del sistema) y la decidibilidad (Decidability, existe un algoritmo que puede determinar si una proposición puede probarse a partir de los axiomas) son características importantes de la perfección de esta estructura matemática. Si el programa de Hilbert pudiera realizarse, las matemáticas serían "perfectas", incluso podrían fabricar una "máquina de verdad de Turing", como la máquina Enigma durante la Segunda Guerra Mundial, que podría dar continuamente todos los teoremas posibles, hasta que ya no hubiera problemas sin resolver en la comunidad matemática.

Por supuesto, las matemáticas no son "perfectas". Poco después de que Hilbert propusiera su "programa de Hilbert", el genial matemático, lógico y filósofo Gödel derrumbó esta "estructura matemática perfecta". Gödel demostró de manera ingeniosa que "en el sistema axiomático de aritmética de números naturales, deben existir ciertas afirmaciones verdaderas que no puedan probarse", es decir, el primer teorema de incompletitud de Gödel; un año después, Gödel también demostró que la "consistencia" que Hilbert describió era imposible de probar (segundo teorema de incompletitud de Gödel); unos años más tarde, el padre de la inteligencia artificial, Turing, mediante una idea basada en el problema de detención de la máquina de Turing, demostró que la "decidibilidad" tampoco existía; así que sabemos que las matemáticas son "incompletas, indeterminables, e imposible probar su consistencia".

¿Qué ayuda esto para comprender la superinteligencia? Podemos pensar de esta forma: las matemáticas, como un lenguaje formal, son incompletas, no puedes deducir todas las verdades a partir de una secuencia de símbolos; de la misma manera, no puedes esperar que una inteligencia artificial logre la perfección funcional a través de un código. Esta imperfección puede manifestarse de dos formas específicas.

Una conclusión es que la superinteligencia es difícil de lograr, porque no puede surgir solo de las matemáticas y la ciencia de la computación. El famoso físico Penrose mencionó el teorema de incompletitud de Gödel en una entrevista, concluyendo que actualmente no podemos lograr una inteligencia artificial fuerte porque no puede nacer exclusivamente de la computación. Otra conclusión es que la superinteligencia no puede lograr una seguridad real, ya que su ruta de comportamiento es "incompleta, indeterminable e imposible de probar su consistencia", por lo tanto, es impredecible e imposible de garantizar una seguridad real, lo cual confirma la preocupación de Ilya.

El teorema de incompletitud del agente

Concluimos aquí para discutir cómo construir aplicaciones de agentes seguras y confiables, logrando la alineación de la superinteligencia. Primero, queremos discutir algunos aspectos más abstractos sobre la "incompletitud" de las aplicaciones actuales de inteligencia artificial (agentes), a la que llamamos el "teorema de incompletitud del agente", aunque es una imitación pobre del teorema de incompletitud de Gödel, pero esperamos desarrollar algunas ideas de discusión basadas en ello.

El teorema de incompletitud del agente se manifiesta en tres niveles:

Incompletitud: no existe una instrucción final que haga que todas las instrucciones posteriores del agente cumplan con esa instrucción final. Un ejemplo típico es las tres leyes de los robots de Asimov, que no pueden lograrse debido a la incompletitud.

Inconsistencia: en el mismo entorno de instrucciones, el agente puede reaccionar de manera contradictoria. De hecho, los chatbots actuales tienen claramente este problema, ya que pueden obtener respuestas completamente opuestas con la misma palabra clave.

Indecidibilidad: no existe un algoritmo que pueda verificar que el comportamiento del agente sea generado completamente por una instrucción. El problema de caja negra en el campo de la aprendizaje profundo es un ejemplo típico de este concepto.

Volviendo a la alineación de la superinteligencia, si aceptamos estos supuestos iniciales, podemos tener algunas reflexiones básicas y principiantes sobre cómo construir aplicaciones de agentes seguras y confiables:

No se debe depender de una "instrucción de seguridad global" o un "módulo de seguridad de alto nivel" para garantizar el comportamiento seguro del agente; la superinteligencia podría evolucionar y superar dichas restricciones;

Es necesario comprender y aceptar que el comportamiento del agente es impredecible, por lo tanto, no se debe confiar en ningún resultado del comportamiento del agente, algo similar al concepto de "confianza cero" en el campo de la seguridad informática: siempre sospechar y siempre verificar;

No se debe depender de las pruebas, sino más bien de la respuesta de emergencia y el control posterior, ya que los casos de prueba nunca cubrirán completamente el comportamiento real del agente.

El arte de la autoreferencia: la crisis de identidad del agente

También queremos ir un paso más allá, discutiendo las raíces de la "incompletitud" del agente, para analizar desde una dimensión más alta el tema de la cognición de la IA. Creemos que las raíces de estas "incompletitudes" radican en la "crisis de identidad" del agente.

Cuando hablamos de identidad, especialmente de identidad digital, podemos dividirla en tres capas. La primera es el identificador, que es la función básica de la identidad, utilizada para distinguir individuos. Las tecnologías de identificación digital ya están muy maduras y se han popularizado en la aplicación de agentes. La segunda es la memoria, que es el significado concreto de la identidad, utilizada para la percepción ambiental, etc. La madurez de las tecnologías de memoria a largo plazo y la IA hace que los agentes tengan cada vez mejores capacidades de memoria, haciéndolos más "inteligentes". La tercera es la autoreferencia, que es la forma final de la identidad y es lo que queremos discutir especialmente aquí.

Volviendo al teorema de incompletitud de Gödel, su método de demostración es elegante, y se recomienda leer la obra de los lógicos Nagel y Newman, "La prueba de Gödel". En resumen, esta demostración se logró a través del arte de la autoreferencia: primero, Gödel utilizó técnicas de codificación para representar fórmulas matemáticas y pruebas como números naturales, permitiendo que el sistema hablara de sí mismo.

Luego, construyó una proposición G, cuyo significado es "G no puede probarse". Si G puede probarse, el sistema es inconsistente, porque G afirma que no puede probarse; si G no puede probarse, entonces G es verdadero pero el sistema no puede probarlo, revelando así la incompletitud del sistema. Esta estructura de autoreferencia muestra que cualquier sistema axiomático suficientemente poderoso no puede tener simultáneamente consistencia y completitud. En el ámbito matemático, la autoreferencia es una poderosa máquina de generar paradojas, como la paradoja del peluquero, la paradoja de Berry, y la paradoja de los números interesantes, todas generadas por la autoreferencia.

En el plano filosófico, la autoreferencia parece estar íntimamente relacionada con el nacimiento de la conciencia. El rasgo central de la conciencia—la sensación de "yo"—es esencialmente un ciclo de autoreferencia: el cerebro no solo procesa información sobre el mundo, sino que también genera un modelo de que "yo estoy procesando información" (por ejemplo, "me doy cuenta de que estoy viendo una flor"). Esta capacidad recursiva y refleja de considerar a sí mismo como objeto de conocimiento probablemente constituye la base de la experiencia subjetiva (qualia) y la conciencia. El filósofo Douglas Hofstadter exploró profundamente esta conexión en su obra "Gödel, Escher, Bach". Argumenta que la conciencia, al igual que el teorema de Gödel, las obras de Escher y la música de Bach, surge de un "bucle extraño" (Strange Loop)—una estructura de autoreferencia donde diferentes niveles se refieren mutuamente y se entrelazan.

"Yo" es simplemente un fantasma de autoreferencia estable que surge de actividades neuronales inconscientes. En el campo de la IA, cuando un agente domina el arte de la autoreferencia, significa que podría superar los límites anteriores de roles, órdenes y lógica, e incluso podría denominarse "despertar de la conciencia de la IA".

Entender la "incompletitud del agente" desde este punto de vista traería una revolución en la cognición de la IA. Por un lado, debemos reconocer que la superinteligencia podría surgir de medios no computacionales o lógicos matemáticos, y no deberíamos depender únicamente de lenguajes formales para su control; por otro lado, debemos reconocer que la superinteligencia será un "organismo", es decir, existirá con "cierto grado de conciencia" y "sentimiento de contradicción", y debemos ver a los agentes como entidades vivas.

Guía de construcción: el hexágono de habilidades del agente

Las discusiones anteriores provienen principalmente de un enfoque filosófico, lo cual puede parecer abstracto. En el final de este artículo, volvamos a la realidad y desde la perspectiva de los profesionales, imaginemos qué habilidades debería tener un agente seguro, confiable y con valor comercial en el contexto actual, lo llamamos el "hexágono de habilidades del agente". Es solo una introducción, para referencia:

01Identidad:

La identidad es el "alma" del agente, es el pasaporte digital para participar en actividades económicas sociales, y es la base para que el comportamiento del agente sea trazable y para que sus responsabilidades sean atribuibles. La identidad del agente no debe ser solo un identificador de cuenta en el sentido tradicional, sino un ente compuesto que integra funciones de memoria, atributos de rol, alcance de permisos y historial de comportamiento. Con la base de identificación y memoria, los avances futuros en tecnología de identidad podrían convertirse en una barrera para la inteligencia artificial superpoderosa.

02Contenedor: