https://bodybydarwin.com
Slider Image

El llenguatge està entrenant la intel·ligència artificial per replicar el biaix humà

2021

El llenguatge és tota la repetició. Cada paraula que llegeixes va ser creada pels humans, i després utilitzada per altres humans, creant i reforçant el context, el significat, la naturalesa del llenguatge. A mesura que els humans entrenem màquines per entendre el llenguatge, estan ensenyant màquines a replicar el biaix humà.

"Les principals troballes científiques que podem demostrar i demostrar són que el llenguatge reflecteix biaixos", va dir Aylin Caliskan, del Centre de Política de Tecnologies de la Informació de la Universitat de Princeton. "Si l'AI està formada en llenguatge humà, necessàriament empodera aquest biaix, perquè representa fets culturals i estadístiques del món".

L’obra de Caliskan, juntament amb les coautores Joanna Bryson i Arvind Narayanan, es va publicar la setmana passada a Science . Essencialment, van trobar que si algú entrena una màquina per entendre el llenguatge humà, llavors també recollirà aquests biaixos inherents.

En humans, una de les millors maneres de provar el biaix és el test d’associació implícita, que demana a la gent que associe una paraula com a “insecte” amb una paraula com “agradable” o “desagradable” i després mesura la latència o el temps en què triga a fer aquesta connexió. Les persones s’afanyen a etiquetar insectes com a desagradables i més lents a etiquetar-los com a agradables, per la qual cosa és una bona mètrica per a les associacions.

Provar la vacil·lació en un ordinador no funciona realment, així que els investigadors van trobar una manera diferent de veure quines paraules els ordinadors estan més disposats a associar amb altres. Igual que els estudiants endevinant el significat d’una paraula desconeguda basada només en les paraules que apareixen properes a ella, els investigadors van formar una IA per associar paraules que apareixen properes a Internet i per no associar paraules que no.

Imagineu cada paraula com un vector en un espai tridimensional. Les paraules que s'utilitzen habitualment en les mateixes frases són més properes a elles, i les paraules que rarament s'utilitzen en les oracions amb ells són vectors més llunyans. Com més properes siguin dues paraules, més probabilitats les associa la màquina. Si la gent diu "programador" proper a "ell" i "ordinador", però diuen "infermera" propera a "ella" i "vestuari que il·lustri el biaix implícit del llenguatge".

No és cap concepte nou que alimenti aquest tipus de dades d’ordinador per tal d’ensenyar-los. Eines com els Vectors globals de Stanford per a la representació de paraules que existien abans d’aquest article plotaven vectors entre paraules relacionades en funció del seu ús. Els grups de paraules de GloVe inclouen 27 mil milions de paraules extretes de 2.000 milions de piulades, 6.000 milions de paraules extretes de la Viquipèdia el 2014 i 840 mil milions de paraules extretes d’un arrabast a l’atzar a través d’internet.

Podríeu dir moltes vegades es produeix leash a prop de cat? i moltes vegades es fa leash a prop dog? i moltes vegades es produeix leash a prop de justice?, i això formaria part de la caracterització de la paraula, va dir Bryson. I després aquests vectors, podeu comparar-los amb cosinus. Què tan a prop té el gat? Què tan a prop és el gat davant la justícia?

De la mateixa manera que un test d’associació implícit mostra quins conceptes pensa inconscientment un ésser humà com a bo o dolent, el càlcul de la distància mitjana entre diferents grups de paraules va mostrar als investigadors quins biaixos havia començat a mostrar un ordinador en la seva comprensió del llenguatge. És remarcable que les màquines entrenades per entendre el llenguatge recollit en biaixos humans sobre flors (són agradables) i insectes (són desagradables), i Bryson va dir que seria un estudi significatiu si això fos tot el que va demostrar. Però va anar més profund que això.

Hi ha a segona prova, que mesura la quantitat entre les nostres troballes i les estadístiques que es fan públiques, va dir Caliskan. Vaig anar a la Oficina d'Estadístiques Laborals del 2015 i cada any publiquen noms d'ocupació juntament amb percentatge de dones i percentatge de, per exemple, negres americans en aquesta ocupació. Analitzant el maquillatge de 50 noms d'ocupació i calculant la seva associació amb el fet de ser masculí o femení, vaig obtenir una correlació del 90 per cent amb les dades de l'Oficina del Treball, cosa que va ser molt sorprenent, perquè no esperava poder trobar aquesta correlació. a partir d’aquestes dades sorolloses ”.

Així doncs, els ordinadors estan agafant racisme i sexisme associant paraules relacionades amb la feina amb un gènere o un grup ètnic concret. Un dels exemples destacats al document és "programador", que no és una paraula en sexe en anglès, però, a través del seu ús, ara hi ha connotacions de ser una professió masculina.

"No havíem pensat, quan dius programador, estàs dient masculí o estàs dient femella", va dir Bryson, "però resulta que és allà en el context en què apareix normalment la paraula".

Les màquines entrenades en conjunts de dades de llenguatge com s’utilitza (com GloVe) recolliran aquesta associació, ja que aquest és el context actual, però significa que els investigadors en el futur haurien de ser prudents sobre com utilitzen aquestes dades, ja que es produeix el mateix biaix humà. al forn Quan Caliskan va formar l'eina en el vocabulari de Viquipèdia, que es manté a un estàndard editorial de llenguatge neutre, va trobar que contenia el mateix biaix que trobava en el conjunt de paraules extret d'Internet.

"Per tenir consciència del biaix, per imparcials, cal quantificar-ho", va dir Caliskan, "Com s'inclou el parcialitat en el llenguatge, la gent comença a crear associacions esbiaixades des de la manera en què estan exposades al llenguatge? Saber que també ens ajudarà a trobar respostes a un futur potser menys esbiaixat. "

Una de les respostes pot estar en altres idiomes. L’estudi es va centrar en paraules en anglès a Internet, de manera que els biaixos que va trobar en l’ús de les paraules són els biaixos, generalment, de persones de parla anglesa amb accés a internet.

"Estem mirant diferents tipus de llenguatges i basant-nos en la sintaxi del llenguatge que intentem comprendre si afecta els estereotips de gènere o el sexisme, només a causa de la sintaxi del llenguatge", va dir Caliskan. "Alguns són sense gènere, d'altres són poc més de gènere. En anglès hi ha pronoms gènere, però les coses es posen més en sexe [en idiomes] com ara l’alemany on els substantius són gènere i pot anar més enllà. Les llengües eslaves tenen adjectius de gènere o fins i tot verbs, i ens preguntem, com afecta això el biaix de gènere a la societat? "

Comprendre com s’entén el biaix en un idioma és també una manera d’entendre quines altres significacions implícites que la gent afegeix a les paraules a més de les seves definicions explícites.

"En certa manera això m'està ajudant a pensar en la consciència", va dir Joanna Bryson, una de les autores de l'estudi. "Quina és la utilitat de la consciència? Voleu tenir memòria del món, voleu saber quin tipus de coses passen normalment. Aquesta és la teva memòria semàntica. "

La mutabilitat del llenguatge, la forma en què es forma el context semàntic mitjançant l’ús, significa que aquesta no ha de ser l’única manera d’entendre aquest món.

"Voleu ser capaç de crear una nova realitat", va continuar Bryson. “Els humans hem decidit que tenim les nostres coses junts prou bé que podríem tenir dones treballant i desenvolupant una carrera professional, i això és una cosa perfectament plausible. I ara podem negociar un nou acord, com ara: "no anem a dir 'el programador ell', direm" el programador que ", encara que parlem de singular, perquè no ho fem vull fer que la gent se senti com si no poden ser programadors. "

I, a menys que la gent tingui en compte aquests biaixos existents quan programen màquines en llenguatge humà, no crearà una màquina imparcial, sinó una màquina que repliqui el biaix humà.

"Molta gent creu que les màquines són neutres", va dir Caliskan. “Les màquines no són neutres. Si teniu un algorisme que pren decisions de forma seqüencial, com l'aprenentatge automàtic, ja sabeu que està format en un conjunt de dades humanes i, per tant, ha de presentar i reflectir aquestes dades, ja que les dades històriques inclouen biaixos, els models entrenats. hauran d’incloure aquests biaixos també, si és un bon algorisme d’entrenament. Si és prou exacte, podrà entendre totes aquestes associacions. El sistema d'aprenentatge automàtic aprèn el que veu. "

La Xina acaba d'arribar al primer desembarcament a l'extrem de la lluna

La Xina acaba d'arribar al primer desembarcament a l'extrem de la lluna

Els agricultors poden conrear millors microbis intestinals que els habitants de la ciutat propers

Els agricultors poden conrear millors microbis intestinals que els habitants de la ciutat propers

Cinc accessoris de radi per als vostres nous productes Apple

Cinc accessoris de radi per als vostres nous productes Apple