Alignement des intelligences artificielles

L'alignement des intelligences artificielles (ou alignement de l'IA, ou encore problème de l'alignement) est un champ de recherche visant à concevoir des intelligences artificielles (IA) dont les résultats s'orientent vers les objectifs, éthiques ou autres, de leurs concepteurs^{[note 1]}. On dit ainsi qu'une IA est alignée avec un opérateur si elle essaie de faire ce que l'opérateur veut qu'elle fasse^[2].

Les systèmes d'IA peuvent être difficiles à aligner, et être dysfonctionnels ou dangereux si mal alignés. Il est parfois trop complexe pour les concepteurs d'IA de spécifier tous les comportements souhaitables ou indésirables, d'où l'utilisation d'objectifs plus simples à spécifier. Mais les systèmes d'IA sont parfois capables de suroptimiser cet objectif simplifié de façon inattendue voire dangereuse^[3]^,^[4]^,^[5]. Ils peuvent également développer des comportements instrumentaux indésirables tels que la recherche de pouvoir, car cela les aide à atteindre leurs objectifs^[6]^,^[4]^,^[7] De plus, ils peuvent développer des objectifs émergents qui peuvent être difficiles à détecter avant le déploiement du système, face à de nouvelles situations et distributions de données^[8]. Ces problèmes affectent les systèmes commerciaux existants tels que les robots^[9], les modèles de langage^[10]^,^[11], les véhicules autonomes^[12], et les moteurs de recommandation des médias sociaux^[3]^,^[13]. Cependant, ces problèmes résultant en partie d'une intelligence élevée, les systèmes futurs pourraient être plus à risque^[14]^,^[6]^,^[4].

La communauté des chercheurs en IA^[15] et l'ONU^[16] ont appelé à des recherches techniques et à des solutions politiques pour garantir que les systèmes d'IA soient alignés avec les valeurs humaines.

L'alignement fait partie du domaine de la sûreté des intelligences artificielles, qui inclut aussi la robustesse, la surveillance ou encore le contrôle des capacités^[4]. L'alignement a pour défis de recherche l'apprentissage par l'IA de valeurs morales complexes, la sincérité des modèles d'IA, la surveillance automatisée, l'audit et l'interprétation des modèles d'IA, ainsi que la prévention des comportements émergents de l'IA comme la recherche de pouvoir^[4]. La recherche sur l'alignement bénéficie entre autres des avancées en interprétabilité des modèles d'IA, robustesse, détection d'anomalies, calibration des incertitudes, vérification formelle^[17], apprentissage des préférences^[18]^,^[19], sûreté des systèmes critiques^[20], théorie des jeux^[21]^,^[22], équité algorithmique, et sciences sociales^[23].

↑ (en) Iason Gabriel, « Artificial Intelligence, Values, and Alignment », Minds and Machines, vol. 30, n^o 3,‎ 1^er septembre 2020, p. 411–437 (ISSN 1572-8641, DOI 10.1007/s11023-020-09539-2, S2CID 210920551, lire en ligne, consulté le 23 juillet 2022).
↑ (en) Paul Christiano, « Clarifying “AI alignment” », sur Medium, 9 avril 2021 (consulté le 27 février 2023).
↑ ^{a et b} (en) Stuart J. Russell, Human compatible: Artificial intelligence and the problem of control, Penguin Random House, 2020 (ISBN 9780525558637, OCLC 1113410915, lire en ligne).
↑ ^{a b c d et e} (en) Dan Hendrycks, Nicholas Carlini, John Schulman et Jacob Steinhardt, « Unsolved Problems in ML Safety », arXiv:2109.13916 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 27 février 2023)
↑ (en) Alexander Pan, Kush Bhatia et Jacob Steinhardt « The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models » (14 février 2022) (lire en ligne, consulté le 21 juillet 2022)
—International Conference on Learning Representations.
↑ ^{a et b} (en) Stuart J. Russell et Peter Norvig, Artificial intelligence: A modern approach, 4e édition, 2020 (ISBN 978-1-292-40113-3, OCLC 1303900751, lire en ligne), p. 31–34.
↑ (en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », arXiv:2206.13353 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 27 février 2023).
↑ (en) Lauro Langosco Di Langosco, Jack Koch, Lee D Sharkey, Jacob Pfau et David Krueger « Goal misgeneralization in deep reinforcement learning » (17 juillet 2022)
— « (ibid.) », dans International Conference on Machine Learning, vol. 162, PMLR, p. 12004–12019.
↑ (en) Kober, Bagnell et Peters, « Reinforcement learning in robotics: A survey », The International Journal of Robotics Research, vol. 32, n^o 11,‎ 1^er septembre 2013, p. 1238–1274 (ISSN 0278-3649, DOI 10.1177/0278364913495721, S2CID 1932843, lire en ligne).
↑ (en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs],‎ 12 juillet 2022 (lire en ligne, consulté le 27 février 2023).
↑ (en) Long Ouyang, Jeff Wu, Xu Jiang et Diogo Almeida, « Training language models to follow instructions with human feedback », arXiv:2203.02155 [cs],‎ 4 mars 2022 (lire en ligne, consulté le 27 février 2023).
↑ (en) W. Bradley Knox, Alessandro Allievi, Holger Banzhaf et Felix Schmitt, « Reward (Mis)design for Autonomous Driving », arXiv:2104.13906 [cs],‎ 11 mars 2022 (lire en ligne, consulté le 28 février 2023)
↑ (en) Stray, « Aligning AI Optimization to Community Well-Being », International Journal of Community Well-Being, vol. 3, n^o 4,‎ 2020, p. 443–463 (ISSN 2524-5295, PMID 34723107, PMCID 7610010, DOI 10.1007/s42413-020-00086-3, S2CID 226254676)
↑ Erreur de référence : Balise <ref> incorrecte : aucun texte n’a été fourni pour les références nommées :84
↑ (en-US) « AI Principles », sur Future of Life Institute (consulté le 28 février 2023).
↑ (en) « Commo nAgenda Report Evolution » [PDF], sur ONU.
↑ (en) Russell, Dewey et Tegmark, « Research Priorities for Robust and Beneficial Artificial Intelligence », AI Magazine, vol. 36, n^o 4,‎ 31 décembre 2015, p. 105–114 (ISSN 2371-9621, DOI 10.1609/aimag.v36i4.2577, S2CID 8174496, lire en ligne)
↑ (en) Wirth, Akrour, Neumann et Fürnkranz, « A survey of preference-based reinforcement learning methods », Journal of Machine Learning Research, vol. 18, n^o 136,‎ 2017, p. 1–46.
↑ (en) Paul F. Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg et Dario Amodei « Deep reinforcement learning from human preferences » (2017)
— « (ibid.) », dans Proceedings of the 31st International Conference on Neural Information Processing Systems, Red Hook, NY, USA, Curran Associates Inc. (ISBN 978-1-5108-6096-4), p. 4302–4310.
↑ Sina Mohseni, Haotao Wang, Zhiding Yu et Chaowei Xiao, « Taxonomy of Machine Learning Safety: A Survey and Primer », arXiv:2106.04823 [cs],‎ 7 mars 2022 (lire en ligne, consulté le 28 février 2023).
↑ (en) Clifton, « Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda », Center on Long-Term Risk, 2020 (consulté le 18 juillet 2022).
↑ (en) Dafoe, Bachrach, Hadfield et Horvitz, « Cooperative AI: machines must learn to find common ground », Nature, vol. 593, n^o 7857,‎ 6 mai 2021, p. 33–36 (ISSN 0028-0836, PMID 33947992, DOI 10.1038/d41586-021-01170-0, Bibcode 2021Natur.593...33D, S2CID 233740521, lire en ligne).
↑ (en) Irving et Askell, « AI Safety Needs Social Scientists », Distill, vol. 4, n^o 2,‎ 19 février 2019, p. 10.23915/distill.00014 (ISSN 2476-0757, DOI 10.23915/distill.00014, S2CID 159180422, lire en ligne)

Erreur de référence : Des balises <ref> existent pour un groupe nommé « note », mais aucune balise <references group="note"/> correspondante n’a été trouvée

[Gabriel2020-1] (en) Iason Gabriel, « Artificial Intelligence, Values, and Alignment », Minds and Machines, vol. 30, n^o 3,‎ 1^er septembre 2020, p. 411–437 (ISSN 1572-8641, DOI 10.1007/s11023-020-09539-2, S2CID 210920551, lire en ligne, consulté le 23 juillet 2022).

[3] (en) Paul Christiano, « Clarifying “AI alignment” », sur Medium, 9 avril 2021 (consulté le 27 février 2023).

[:210-4] {a et b} (en) Stuart J. Russell, Human compatible: Artificial intelligence and the problem of control, Penguin Random House, 2020 (ISBN 9780525558637, OCLC 1113410915, lire en ligne).

[:010-5] {a b c d et e} (en) Dan Hendrycks, Nicholas Carlini, John Schulman et Jacob Steinhardt, « Unsolved Problems in ML Safety », arXiv:2109.13916 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 27 février 2023)

[:1522-6] (en) Alexander Pan, Kush Bhatia et Jacob Steinhardt « The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models » (14 février 2022) (lire en ligne, consulté le 21 juillet 2022)
—International Conference on Learning Representations.

[:92-7] {a et b} (en) Stuart J. Russell et Peter Norvig, Artificial intelligence: A modern approach, 4e édition, 2020 (ISBN 978-1-292-40113-3, OCLC 1303900751, lire en ligne), p. 31–34.

[:75-8] (en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », arXiv:2206.13353 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 27 février 2023).

[goal_misgen-9] (en) Lauro Langosco Di Langosco, Jack Koch, Lee D Sharkey, Jacob Pfau et David Krueger « Goal misgeneralization in deep reinforcement learning » (17 juillet 2022)
— « (ibid.) », dans International Conference on Machine Learning, vol. 162, PMLR, p. 12004–12019.

[10] (en) Kober, Bagnell et Peters, « Reinforcement learning in robotics: A survey », The International Journal of Robotics Research, vol. 32, n^o 11,‎ 1^er septembre 2013, p. 1238–1274 (ISSN 0278-3649, DOI 10.1177/0278364913495721, S2CID 1932843, lire en ligne).

[:625-11] (en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs],‎ 12 juillet 2022 (lire en ligne, consulté le 27 février 2023).

[:42-12] (en) Long Ouyang, Jeff Wu, Xu Jiang et Diogo Almeida, « Training language models to follow instructions with human feedback », arXiv:2203.02155 [cs],‎ 4 mars 2022 (lire en ligne, consulté le 27 février 2023).

[13] (en) W. Bradley Knox, Alessandro Allievi, Holger Banzhaf et Felix Schmitt, « Reward (Mis)design for Autonomous Driving », arXiv:2104.13906 [cs],‎ 11 mars 2022 (lire en ligne, consulté le 28 février 2023)

[14] (en) Stray, « Aligning AI Optimization to Community Well-Being », International Journal of Community Well-Being, vol. 3, n^o 4,‎ 2020, p. 443–463 (ISSN 2524-5295, PMID 34723107, PMCID 7610010, DOI 10.1007/s42413-020-00086-3, S2CID 226254676)

[:84-15] Erreur de référence : Balise <ref> incorrecte : aucun texte n’a été fourni pour les références nommées :84

[16] (en-US) « AI Principles », sur Future of Life Institute (consulté le 28 février 2023).

[17] (en) « Commo nAgenda Report Evolution » [PDF], sur ONU.

[:6-18] (en) Russell, Dewey et Tegmark, « Research Priorities for Robust and Beneficial Artificial Intelligence », AI Magazine, vol. 36, n^o 4,‎ 31 décembre 2015, p. 105–114 (ISSN 2371-9621, DOI 10.1609/aimag.v36i4.2577, S2CID 8174496, lire en ligne)

[:122-19] (en) Wirth, Akrour, Neumann et Fürnkranz, « A survey of preference-based reinforcement learning methods », Journal of Machine Learning Research, vol. 18, n^o 136,‎ 2017, p. 1–46.

[:162-20] (en) Paul F. Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg et Dario Amodei « Deep reinforcement learning from human preferences » (2017)
— « (ibid.) », dans Proceedings of the 31st International Conference on Neural Information Processing Systems, Red Hook, NY, USA, Curran Associates Inc. (ISBN 978-1-5108-6096-4), p. 4302–4310.

[21] Sina Mohseni, Haotao Wang, Zhiding Yu et Chaowei Xiao, « Taxonomy of Machine Learning Safety: A Survey and Primer », arXiv:2106.04823 [cs],‎ 7 mars 2022 (lire en ligne, consulté le 28 février 2023).

[22] (en) Clifton, « Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda », Center on Long-Term Risk, 2020 (consulté le 18 juillet 2022).

[23] (en) Dafoe, Bachrach, Hadfield et Horvitz, « Cooperative AI: machines must learn to find common ground », Nature, vol. 593, n^o 7857,‎ 6 mai 2021, p. 33–36 (ISSN 0028-0836, PMID 33947992, DOI 10.1038/d41586-021-01170-0, Bibcode 2021Natur.593...33D, S2CID 233740521, lire en ligne).

[24] (en) Irving et Askell, « AI Safety Needs Social Scientists », Distill, vol. 4, n^o 2,‎ 19 février 2019, p. 10.23915/distill.00014 (ISSN 2476-0757, DOI 10.23915/distill.00014, S2CID 159180422, lire en ligne)

[note 1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]