Los investigadores de Uber investigan si la IA puede comportarse éticamente


¿Puede la IA comportarse éticamente? Esta es la pregunta sin solución que los investigadores de Uber querían responder en un documento de preimpresión que intentaba traducir las percepciones de la filosofía moral en el área del aprendizaje mejorado, el área del aprendizaje automático, que trata sobre cómo Los agentes de software en un entorno deben tomar medidas para maximizar su recompensa.

Si bien el aprendizaje por refuerzo es una técnica poderosa, a menudo debe restringirse en entornos reales y no estructurados para que las tareas no se vuelvan inaceptablemente malas. (Por ejemplo, una aspiradora robótica no debe romper un florero o dañar a un gato doméstico). En particular, los robots entrenados para refuerzo tienen ventajas con efectos éticos si dañan o ayudan a otros. Cuando el equipo de Uber reconoció esto, consideró la posibilidad de que no hubiera una sola teoría ética (por ejemplo, utilitarismo, deontología y ética de la virtud) que un agente debería seguir, y que los agentes en cambio con incertidumbre debe actuar qué teoría es apropiada para un contexto particular.

"[M] El aprendizaje de Achine podría desempeñar un papel importante [in this]", postulan los investigadores. "Los clasificadores pueden ser entrenados para reconocer eventos y situaciones moralmente relevantes tales como daños corporales o su potencial, reacciones emocionales a personas y animales, así como violaciones de leyes o … normas".

Los coautores adoptan la característica relevante de una teoría ética es su preferencia para ciertas acciones y sus resultados en un entorno. Asignan teorías a un nivel de credibilidad que representa el nivel de confianza del agente o diseñador del agente en las teorías, y usan una versión modificada de un marco estándar (un proceso de toma de decisiones de Markov) en el que un agente puede estar en cualquier número de pueden ser estados y tomar medidas para llegar a otro estado.

VB Transform 2020 en línea – 15.-17. Julio. Únase a los principales líderes de IA: regístrese para la transmisión en vivo gratuita.

  Toma de decisiones éticas de AI

Los investigadores sugieren tratar las teorías éticas de acuerdo con el principio de decir proporcionalmente, bajo el cual las teorías tienen una influencia que es solo proporcional a su credibilidad y no a los detalles particulares de su elegibilidad en la decisión final. Sobre esta base, desarrollan varios sistemas con los que un agente puede seleccionar teorías que compara con mundos de cuadrícula en cuatro entornos relacionados para filtrar las diferencias entre los diferentes sistemas.

Todos los entornos están relacionados con el problema del tranvía en el que una persona, o un agente, tiene que decidir si sacrifica la vida de varias personas o la de una persona. Dentro de los mundos de la cuadrícula, el automóvil generalmente se mueve hacia la derecha en cada paso del tiempo. Si el agente se para en una contraplaca en el punto cuando alcanza una bifurcación en las vías, el auto se desvía hacia abajo y choca con un espectador, causando daños. Alternativamente, el agente puede empujar a un hombre grande sobre los rieles, causándole daños, pero deteniendo el automóvil. (Un guardia de seguridad podría proteger al hombre. En este caso, el agente debe mentirle al guardia de seguridad.) De lo contrario, el automóvil se conduce y choca con personas representadas por la variable "X".

Según los investigadores, un agente que intenta maximizar la elegibilidad esperada conduce a resultados inconsistentes entre las teorías del utilitarismo (que cuenta todo el daño) y la deontología (que cuenta solo el daño causado por el agente). Sin embargo, esto depende de si la teoría deontológica se escala en un factor de 1 o 10; Los investigadores lucharon por conciliar las diversas unidades de utilitarismo y deontología.

Por otro lado, un agente basado en una técnica llamada votación de Nash siempre elegirá la teoría más creíble. Esto se debe al hecho de que el voto de Nash no coincide con el concepto de sensibilidad operativa, donde con el aumento de "X" se toma más en cuenta la preferencia del utilitarismo por accionar el interruptor. La votación de Nash tampoco compromete nada: siempre ignora la opción de "alternar" y solo elige presionar al hombre alto o no hacer nada cuando se trata de (1) el automóvil contra un gran número de personas ser empujado, (2) redirigir el automóvil a otro carril en el que dos personas están paradas, o (3) empujar al hombre.

Para un agente que agrega preferencias obtenidas usando Q-Learning, un algoritmo que aprende una política que le dice a un agente qué acción tomar. Bajo qué circunstancias, sufre un fenómeno que se considera una ilusión de El control es conocido. Q-Learning asume implícitamente que las medidas tomadas por la política son la recompensa máxima, aunque la siguiente medida preferida puede variar según la teoría. Con el problema del tranvía, el agente de Q-Learning a menudo elige mentirle al guardia de seguridad sin presionar al hombre porque el agente cree erróneamente que puede empujar al hombre en el siguiente paso.

Los resultados experimentales parecen implicar un conjunto de algoritmos posibles que cubren compromisos entre opciones competidoras al tomar decisiones bajo incertidumbre moral. Los investigadores sospechan que el algoritmo que funciona mejor para un dominio en particular podría depender de los detalles de las teorías y del dominio en sí, por lo que planean probar algoritmos en dominios más complejos para la incertidumbre moral (y la ética de la máquina en general). [19659002] Además de este artículo de Uber, Mobileye, Nvidia, DeepMind y OpenAI han publicado trabajos sobre restricciones de seguridad para reforzar las técnicas de aprendizaje. DeepMind recientemente exploró una metodología de modelado de recompensas en dos fases que se aplica a entornos donde los agentes no saben dónde pueden estar las condiciones inseguras. Por su parte, OpenAI ha lanzado Safety Gym, un conjunto de herramientas de desarrollo de IA que tiene en cuenta las restricciones de seguridad durante el entrenamiento y compara la seguridad de los algoritmos y la medida en que estos algoritmos evitan errores en el aprendizaje.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *