Dilema del prisionero

El dilema del prisionero es sólo uno de los muchos ejemplos ilustrativos del razonamiento lógico y las decisiones complejas que implica la teoría de juegos. El dilema del prisionero toma la forma de una situación o juego en el que dos personas deben tomar decisiones por separado que tendrán consecuencias no solo para ellos mismos, sino también para el otro. Cuando están atrapadas en la situación o cuando juegan, las personas enfrentan un dilema con respecto a sus decisiones, porque cuando están motivadas únicamente por su propio interés, enfrentan consecuencias más severas que cuando están motivadas por intereses grupales, como se ilustra a continuación. Para tomar la mejor decisión, cada jugador debería saber lo que hará el otro, pero la estructura del dilema del prisionero prohíbe a los jugadores tener ese conocimiento, a menos que se repita la situación o el juego. El prisionero’

Cuando se entiende correctamente, este dilema puede multiplicarse en cientos de otros dilemas más complejos. Los mecanismos que impulsan el dilema del prisionero son los mismos que enfrentan los especialistas en marketing, los estrategas militares, los jugadores de póquer y muchos otros tipos de competidores. Los modelos simples utilizados en el dilema del prisionero brindan información sobre cómo reaccionarán los competidores a los diferentes estilos de juego, y estos revelarán sugerencias sobre cómo se puede esperar que actúen esos competidores en el futuro. Una plétora de disciplinas han estudiado el juego, incluida la inteligencia artificial, la biología, los negocios, las matemáticas, la filosofía, la sociología y las ciencias políticas.

Basado en la investigación de la teoría de juegos de Merrill Flood y Melvin Dresher para Rand Corporation en 1950, Albert Tucker presentó sus hallazgos en la forma del escenario o juego del dilema del prisionero, usándolo para ilustrar el fracaso de las estrategias de menor riesgo y el potencial por el conflicto entre la racionalidad individual y colectiva. Tucker sugirió un modelo en el que dos jugadores deben elegir una estrategia individualmente racional, dado que la estrategia de cada jugador puede afectar al otro jugador.

En el ejemplo, la policía detiene a dos sospechosos por robar una tienda. Los fiscales no pueden probar que ninguno de los dos cometió el robo, pero tienen pruebas suficientes para condenar a ambos por un cargo menor de posesión de propiedad robada.

Ambos sospechosos están aislados sin medios de comunicación y se les ofrece la oportunidad de negociar. A cada uno se le pide que confiese y testifique contra el otro. Si ambos presos se niegan a confesar, serán condenados por el cargo menor basado en evidencia circunstancial y cumplirán un año de cárcel. Si ambos se confiesan y se implican mutuamente, serán condenados por robo y condenados a dos años de cárcel.

Sin embargo, si el prisionero A se niega a confesar mientras el prisionero B confiesa y acepta testificar contra A, el prisionero B será puesto en libertad. Mientras tanto, el prisionero A puede ser declarado culpable sobre la base del testimonio del prisionero B y puede ser sentenciado a seis años de cárcel. Lo contrario se aplica si el prisionero A confiesa y el prisionero B permanece en silencio.

Las opciones disponibles para los presos, y las consecuencias de esas elecciones, pueden representarse en la matriz que se muestra en la Figura I (los números son años de condena a prisión).

Figura 1

Si los presos esperan evitar pasar seis años en la cárcel y están dispuestos a correr el riesgo de cumplir dos años para garantizarlo, estarán motivados a confesar. Una confesión para cualquiera de los dos asegurará que no cumplirá más de dos años, independientemente de lo que haga el otro.

Esta estrategia de confesión se denomina estrategia dominante porque produce un mejor resultado para el preso —en este caso, evitando una pena de prisión de seis años— independientemente de lo que haga el otro preso. También se conoce como el principio de “cosa segura”, porque los presos que confiesan saben con certeza que no cumplirán más de dos años.

Pero cuando la estrategia dominante de la confesión es individualmente racional, se puede obtener un resultado aún más óptimo de una estrategia que sea colectivamente racional. Por ejemplo, si los presos A y B pueden estar seguros de que ninguno de los dos confesará, y ambos están dispuestos a cumplir un año de prisión como resultado de esta decisión, estarán motivados a no confesar.

Esta estrategia, que les da a los presos el menor número total de años en la cárcel, dos, se llama estrategia cooperativa. La matriz de la Figura 2 ilustra las opciones óptimas colectivamente. Repite las opciones presentadas anteriormente, pero muestra el número total de años que serán cumplidos por ambos en cada caso.

Figura 2

Evidentemente, si los dos presos son muy leales y se niegan a implicar al otro, ambos optarán por guardar silencio y minimizar el número de años que ambos deben cumplir. Para lograr este resultado, los dos reclusos deben tener un acuerdo que sea razonablemente ejecutable y efectivo o suficiente confianza el uno en el otro.

Si el acuerdo no es efectivo, los presos pueden sentirse motivados a adoptar la estrategia dominante porque pueden mejorar su situación apoyándose en ella. A un preso se le puede permitir salir en libertad, mientras que la otra pareja pasa los siguientes seis años tras las rejas, o ambos pueden pasar un año en prisión.

De hecho, uno de los presos puede estar motivado para construir un acuerdo de no confesar, específicamente para engañar a su pareja y garantizar su propia libertad. Este escenario demuestra cómo el juego no cooperativo puede subvertir las estrategias cooperativas y por qué el conocimiento es absolutamente esencial para tomar una decisión individual óptima.

El dilema del prisionero proporciona aún más información cuando se examina en una serie de casos en los que la dinámica cambia. Por ejemplo, suponga que los prisioneros A y B son arrestados y A permanece en silencio mientras el prisionero B confiesa, después de que ambos hayan acordado no confesar si los atrapan. El prisionero B queda libre mientras que el prisionero A cumple los próximos seis años en la cárcel. Claramente, el prisionero A ha juzgado mal al prisionero B.

Mientras tanto, el prisionero B vuelve a una vida delictiva y es recogido en circunstancias idénticas con otro compañero, el prisionero C. El prisionero C es consciente de lo que B le hizo a A la última vez y no tiene intención de permanecer en silencio, porque C sabe que B no puede ser de confianza y C no quiere unirse al prisionero A durante seis años.

El prisionero C posee algo que A no tenía: un conocimiento superior sobre cómo podría actuar el prisionero B. El prisionero B sabe que el prisionero C tiene esta información y, como C, estará motivado a confesar. De ahí que ambos sean condenados a dos años en este escenario.

El hecho de que el juego se repita, o se repita, ofrece a los jugadores indicaciones del estilo de juego de los demás en función de su rendimiento anterior. Al permitir oportunidades de retribución, el juego iterativo proporciona indicaciones de cómo los jugadores interactuarán y cómo reaccionarán a las consecuencias de las estrategias no cooperativas.

Por ejemplo, el prisionero B haría bien en retirarse del crimen o hacer un esfuerzo considerable para no ser atrapado, porque es probable que las acciones pasadas de B arruinen las posibilidades de que otro compañero que conozca la historia del prisionero B alguna vez coopere con el prisionero B.

El juego repetido contra un jugador programado, uno cuyas decisiones son predecibles, indicará cómo reaccionará un jugador a las oportunidades para explotar al otro. Suponga que un jugador llamado Bob simplemente repite los movimientos de otro llamado Ray. Ray sabe que, haga lo que haga, Bob lo hará en el próximo movimiento. Por lo tanto, si Ray se aprovecha de Bob en un movimiento, Bob corresponderá en el siguiente movimiento. Este ciclo destructivo continuará hasta que ambos puedan estar convencidos de que se beneficiarían más de un estilo de juego cooperativo.

Por ejemplo, si Bob y Ray son prisioneros A y B, podrían darse cuenta de que confesarse repetidamente el uno contra el otro en una serie de delitos está causando más daño que si cooperaran. Esto se ilustra en las tablas, donde ambos reciben dos años si confiesan, pero solo uno si cooperan y guardan silencio.

Los ejemplos de juego iterativo muestran que, siempre que los beneficios de la cooperación superen los beneficios del antagonismo, los jugadores eventualmente adoptarán un estilo de juego cooperativo. Ambos jugadores decidirán cooperar porque, en una serie de juegos repetidos, la racionalidad colectiva se vuelve análoga a la racionalidad individual.

Las simulaciones por computadora del juego del dilema del prisionero han dado como resultado el descubrimiento de lo que podría ser la estrategia óptima para el juego: el enfoque de “ojo por ojo”. Esta estrategia requiere jugar cooperativamente al principio. Pero cuando el otro jugador juega de manera egoísta, recomienda realizar movimientos recíprocos del oponente. Esta investigación demostró que el enfoque de ojo por ojo produce mejores resultados que la estrategia de la “regla de oro” de la competencia, que estipula que los jugadores toman sus decisiones en función de lo que les gustaría que eligieran otros jugadores.

APLICACIONES DEL
DILEMA DEL PRISIONERO

El dilema del prisionero puede extenderse a situaciones de mercado competitivo. Suponga, por ejemplo, que solo hay dos tenderos en un mercado determinado, el tendero Bill y el tendero Mary. Bill decide atacar a Mary rebajando sus precios. María corresponde al igualar los recortes de precios. Ambos abandonan las ganancias e incluso incurren en pérdidas, con la esperanza de obligar al otro a someterse.

Finalmente, Bill se da por vencido y sube los precios. Mary, que ya no puede permitirse subestimar a Bill, también sube los precios. Ahora ninguno está en desventaja. Han llegado a un acuerdo de cooperación después de enterarse de que las consecuencias del antagonismo son mutuamente perjudiciales.

Como muestra este ejemplo, la competencia empresarial a menudo implica la estrategia de ojo por ojo. Las empresas comienzan “jugando” cooperativamente y fijando sus precios con márgenes de beneficio razonables Después de eso, coinciden con el último movimiento de sus competidores. Por lo tanto, ofrecen descuentos si sus competidores ofrecen descuentos y valor agregado si sus competidores ofrecen valor agregado. Sin embargo, a diferencia del ejemplo, las empresas esperan que sus competidores se den cuenta de que no pueden “ganar” a menos que cooperen antes de comenzar a sufrir pérdidas. En consecuencia, el dilema del prisionero sugiere que las empresas pueden beneficiarse más de ser menos competitivas (al menos en términos de precio) y menos de ser más competitivas.

Un ejemplo del mundo real del dilema del prisionero extendido existe en la industria pesquera, donde la tasa de capturas de los pescadores ha aumentado más rápido que la capacidad de reproducción de los peces. El resultado es un suministro agotado que ha causado mayores dificultades a todos los pescadores.

La estrategia individualmente óptima para los pescadores es cooperar entre sí restringiendo el volumen de sus capturas. Los pescadores renuncian a mayores ganancias a corto plazo, pero tienen la seguridad de proteger su sustento a largo plazo.

Estos ejemplos contradicen directamente el principio aceptado en economía de que la búsqueda individual del interés propio en un mercado de libre competencia produce un equilibrio agregado óptimo. Demuestran la aplicación de rendimientos decrecientes a un recurso finito.

La afirmación de que las estrategias cooperativas prevalecerán sobre las no cooperativas en los juegos iterativos obtuvo el apoyo de una fuente muy inusual: la biología teórica. Los científicos preocupados por la dinámica evolutiva postularon que las especies que luchan hasta la muerte se abren camino hacia la extinción.

Parece elemental que un animal decidido a matar a otros de su especie eventualmente dejaría de existir. Aunque las contiendas dentro de las especies son comunes, particularmente en la selección de pareja, a menudo no resultan en la muerte de uno de los oponentes. Estos concursos recompensan al ganador con un compañero y recompensan al perdedor con la supervivencia por aceptar la derrota y marcharse.

Suponiendo que el macho y la hembra de una especie se producen aleatoriamente en igual número, las situaciones repetidas en las que dos machos luchan a muerte por una sola pareja producirán una población en la que las hembras superarán a los machos. Si estas muertes limitan la reproducción de la especie por falta de machos, el crecimiento poblacional de esta especie se retrasará.

Si dos machos en las mismas condiciones luchan solo por la supremacía, en lugar de a muerte, el perdedor puede prevalecer en otra contienda con otro oponente aún más débil, y aún así se le permitirá reproducirse. Por tanto, el combate no letal puede verse como cooperativo en el sentido colectivo.

El dilema del prisionero se vuelve relevante en la biología evolutiva cuando se construye una matriz para analizar los resultados de las contiendas entre animales que son asesinos y aquellos que no lo son (ver Figura 3).

figura 3

Un solo asesino prevalecerá en tres de los cuatro concursos, mientras que dos no asesinos sobrevivirán en uno de los cuatro. En el juego iterativo, los asesinos eventualmente destruirán a todos los no asesinos. En una población que se queda solo con asesinos, las contiendas sucesivas entre asesinos producirán cada vez menos asesinos hasta que la especie no pueda sostenerse por sí misma.

Mientras tanto, las poblaciones en las que no hay asesinos no sufrirán disminución de la población masculina debido a contiendas letales. Se mantendrá una distribución aproximadamente igual de machos y hembras, y los animales se emparejarán y reproducirán la especie. Este ejemplo demuestra una vez más que las estrategias cooperativas son dominantes en el juego iterativo.

Un caso en el que el juego no cooperativo puede beneficiar a un jugador es en el caso de que la pena más alta sea la expulsión del juego. Por ejemplo, si los dos prisioneros están implicados en un asesinato, pero los fiscales no pueden determinar quién fue el asesino a sueldo, pueden ofrecer un acuerdo de culpabilidad (ver Figura 4).

Figura 4

Si ambos confiesan, cada uno recibe 25 años. Si se niegan a cooperar, cada uno recibe ocho años. Pero, si el prisionero A testifica que B realmente cometió el asesinato y B permanece en silencio, el prisionero B será ejecutado. Aunque extremo, tal modelo por su naturaleza excluye la iteración porque el prisionero B estará muerto.

Otro caso en el que las estrategias no cooperativas pueden resultar dominantes es cuando las sanciones a cada jugador son insuficientes para proporcionar motivaciones cooperativas. Considere el siguiente ejemplo en la Figura 5.

Figura 5

Aquí, a los presos A y B les es indiferente confesarse o permanecer en silencio porque en cualquier caso los castigarían con dos años. Pero cada uno es consciente de que si permanece en silencio mientras el otro accede a implicarlo, podría enfrentar un tercer año de cárcel. Por lo tanto, para evitar la pena más fuerte, ambos adoptarán una estrategia defensiva poco cooperativa y confesarán.

El dilema del prisionero puede extenderse a competencias entre más de dos jugadores. Suponga, por ejemplo, que tres prisioneros, en lugar de dos, son detenidos por robo. Cada prisionero debe ahora sopesar los posibles resultados de la cooperación y el antagonismo con dos contrapartes. Este escenario puede representarse en una matriz tridimensional con ocho, en lugar de cuatro resultados posibles.

Si hubiera un cuarto socio, la matriz requeriría una cuarta dimensión, o matriz, con 16 resultados posibles. El número de resultados en un dilema de jugadores múltiples puede expresarse como una fórmula: (C) ‘, donde C es el número de opciones disponibles para cada jugador yn representa el número de jugadores.

Las pruebas con dilemas de múltiples prisioneros apoyan la posición de que las estrategias cooperativas siguen siendo óptimas individualmente, particularmente en el juego iterativo.

5/5 - (5 votes)