Singularitetstätning. Problemet Med Att Begränsa Friheten För Konstgjord Intelligens - Alternativ Vy

2024 Författare: Keith Bush | [email protected]. Senast ändrad: 2023-12-16 14:50

Artikeln försöker formalisera och utforska problem med tätning av singularitet som beskrivs av David Chalmers. Artikeln börjar med en definition av problemet med att begränsa friheten för konstgjord intelligens. Efter att ha analyserat de befintliga alternativen för att lösa detta problem och deras brister föreslogs ett protokoll, vars syfte är att skapa en säker stängd miljö som kan innehålla de negativa manifestationerna av teknisk singularitet när mänskligheten använder superintelligens.

1. Introduktion

Inom en nära framtid kommer uppenbarligen superintelligenta program att dyka upp och utvecklas. I detta avseende har ett antal forskare tagit upp frågan om säker drift av AI (Yudkowsky 2008, Bostrom 2006, Hibbard 2005, Chalmers 2010; Hall 2000). I studier som ägnas åt denna fråga ägnas stor uppmärksamhet åt hur man kan hålla superintelligens i ett hermetiskt tillslutet utrymme så att det inte har förmågan att skada människor på något sätt. Eric Drexler är en av de tidigaste visionärerna som berör detta ämne. Han föreslog att lägga superintelligent maskiner i ett ramverk där allt de gör kan studeras och användas säkert (Drexler 1986). Motivering på liknande sätt föreslog futuristen Nick Bostrom (Bostrom 2008) att skapa ett AI-orakel (AI), som bara kan göraatt svara på frågor. Slutligen, 2010, lade David Chalmers fram idén om en hermetiskt förseglad singularitet (Chalmers 2010). Enligt Chalmers är det första du måste göra av säkerhetsskäl att kontrollera verksamheten i AI-system, att reducera den till modellering av virtuella världar, tills du studerar beteendet hos dessa system kan du helt klargöra deras avsikter.

1.1 Problemet med att begränsa friheten för konstgjord intelligens

Intressant nog har man pratat om problemet med att begränsa AI: s frihet länge och inte alls i samband med studien av teknisk singularitet. Det så kallade "restriktion av frihetsproblem" (PIC) ställdes tillbaka 1973 av Butler Lampson (Lampson 1973). Han betraktade det som en utmaning för vetenskapliga och tekniska framsteg, skapade ett hot mot datorspecialisternas säkra arbete och formulerade det på följande sätt:”… Problemet med att begränsa det fria exekveringen av ett program för att förhindra detta program från att överföra information till någon annan, förutom den som lanserade det. … Vi vill kunna begränsa programmets frihet. … Alla program, om begränsningar införs för dess genomförande, kommer inte att kunna "slå samman" data till obehöriga personer. Ett styggt program som försöker fly utomlands kan fångas in i akten”(ibid.).

För att lösa problemet med begränsning av friheten utvecklade Lampson lagar om frihetsbegränsning (ibid.):

Kampanjvideo:

1) Fullständig isolering: exekveringen av ett program är begränsad så att det inte kan ringa något annat program.

2) Transitivitet: om ett program vars exekvering är begränsat kallar ett annat program som inte inspirerar förtroende, måste exekveringen av det kallade programmet också begränsas.

3) Skapa en mask: programmet, vars exekvering är begränsad, måste låta den som startar den bestämma alla dess poster i lagliga och obehöriga kanaler.

4) Övervakning av prestanda: Administratören måste se till att inträde av ett begränsat program till obehöriga kanaler uppfyller kraven hos den som startar det.

Dessutom identifierade och identifierade Lampson två typer av kanaler genom vilka information kan lämna utrymmet begränsat av administratören. Juridiska kanaler är en del av ett kommunikationsprotokoll som är integrerat i ett trångt utrymme (till exempel en textterminal). Obehöriga kanaler, tvärtom, tillhandahålls inte av utvecklarna av det begränsade program exekveringssystemet och är i allmänhet inte avsedda att överföra information (till exempel med en kylare som kyler processorn, AI, med Morse-kod, kan i hemlighet skicka signaler) (ibid.).

Lampsons uppsats genererade ett stort intresse för problemet med återhållsamhet (Lipner 1975; (Boebert & Kain) 1996), och under åren relaterade forskningsområden som steganography (Provos & Kain). Honeyman 2003) och kommunikation genom obehöriga kanaler (Moskowitz & Kang 1994; Kemmerer 1983, 2002) har flyttat till nivån på autonoma discipliner. ", Vi definierar problemet med att begränsa friheten för AI (PSIA) som problemet med att placera ett konstgjordt intelligent motiv i ett stängt utrymme, från vilket AI inte kan utbyta information med den yttre miljön genom lagliga eller obehöriga kanaler,såvida inte sådan utbyte av information har godkänts av den begränsande administrationen. Ett AI-system som lyckas bryta PIC-protokollet sägs ha undkommit. Vi hoppas att forskare inom datasäkerhet kommer att bära bördan att utforma, utveckla och testa säkra protokoll för att begränsa AI-friheten.

1.2 Farligt program

Datorprogramvara är direkt eller indirekt ansvarig för att hantera många viktiga aspekter av våra liv. Wall Street marknadsverksamhet, kärnkraftverk, välfärdsbetalningar, kredithistorik och trafikljus är alla programvarudrivna, och bara ett stort misstag av programmerarna kan vara en katastrof för miljoner människor. Situationen görs ännu mer hotande av speciellt utformad skadlig programvara som virus, spionprogram, trojaner, maskar och andra farliga program (OP). OP: n kan orsaka direkt skada och inaktivera lagligt installerad programvara som används på uppdragskritiska system. Om OP förvärvar förmågan hos artificiella intelligenta system (till exempel ett artificiellt intelligent virus, IIV visas) kommer konsekvenserna utan tvekan att blikommer att vara katastrofala. Ett farligt underrättelseprogram (IPP), som har intelligens på mänsklig nivå, till skillnad från dagens skadliga program, kommer att kunna orsaka katastrof utan motstycke.

Nick Bostrom introducerade i sin typologi av informationshot begreppet "fara för artificiell intelligens" (Bostrom 2009), som han definierar som "datorisker orsakade främst av programmets kognitiva komplexitet och inte av de specifika egenskaperna för några enheter som ursprungligen är anslutna till systemet." Säkerhetsspecialister som studerar, förhindrar och neutraliserar OP: s har utvecklat säkerhetsprotokoll för att arbeta med”skadlig programvara”, inklusive användning av så kallade”viruslagrar”. Vi tror att sådana protokoll kan vara användbara för att lösa problemet med att begränsa friheten för konstgjord intelligens.

2. Kritik av idén att begränsa friheten

Forskare om AI-begränsningsmetoder verkar vara överens om att denna begränsning inte kan genomföras med framgång. Till exempel, enligt Chalmers, är ett verkligt hermetiskt förseglat system som förhindrar information från att läcka från simuleringsvärlden till verkligheten "omöjligt eller åtminstone meningslöst" (Chalmers 2010). Vi kommer inte att kunna interagera med ett sådant system och till och med följa dess arbete, eftersom all användbar information vi extraherar från AI påverkar oss och undergräver begränsningen av frihetsprotokollet.

Vernor Vinge tycker det också. Han motsätter sig den fysiska begränsningen av friheten (Vinge 1993):”Tänk dig att du är inlåst i ditt hus och mängden data du skickar utanför, dina mästare, är starkt begränsad. Om dessa ägare tänker, säger, en miljon gånger långsammare än dig, kommer du på några år (din tid) knappast att komma på någon slags "användbar uppfinning" tack vare vilken du oavsiktligt kommer att befinna dig fri."

Men det var Eliezer Yudkowsky som i högsta grad diskrediterade idén om den så kallade”AI-boxen”. Han demonstrerade experimentellt att till och med mänsklig intelligens är tillräckligt för att fly från en sådan låda (Yudkovsky 2002). I en serie med fem experiment bad Yudkowski olika människor att spela rollen som en vaktmästare med en superintelligent agent (spelad av experimenteraren själv), låst i en AI-låda. I tre av fem fall lyckades den låsta agenten befria sig med bara chattgränssnittet (ibid.). Senare erhölls liknande resultat genom att replikera Yudkowskis experiment i något större skala, men med ett mycket liknande protokoll (Corwin 2002).

2.1 Möjliga utrymningsvägar

Som forskarna har visat kan ett konstgjort sinne fly från ett trångt utrymme med många olika vägar. I det här avsnittet tittar vi på några av de vanligaste flyktvägarna i litteraturen.

2.1.1. Fly med socialteknik

Social engineering (SI) är konsten att få information och vissa privilegier genom direkt psykologisk påverkan på dem som äger de angivna resurserna. SI används ofta för att få tillgång till datorsystem, nätverk och konfidentiella data (Yampolsky och Govindaraju 2007a). En kompetent socialingenjör organiserar varje psykologisk attack med hänsyn till egenskaperna hos en viss person och använder sin kultur, kunskap, färdigheter, humör, övertygelser och fördomar för sina egna syften. Den uttömmande listan över alla möjliga påverkningsmetoder är oändlig, och i detta fall finns det inget behov av att försöka reproducera den. Vi kommer att ge bara några exempel som övertygar att superintelligensen, som har en direkt kommunikationskanal med den mänskliga vakten, inte tillåter honom att komma ut till friheten,efter en tid kommer han säkert att övervinna detta hinder på vägen till omvärlden.

Förutom triviala psykologiska attacker med lögner, vänskap, utpressning, hypnos och romantisk flirta, kan AI distribuera ett antal mer avancerade strategier. En sådan strategi är super mutor. AI kan övertyga vaktmannen om att det är absolut olönsamt för honom att hålla honom inlåst. Förutom pengar och makt kommer den mänskliga övervakaren att utlovas perfekt hälsa, odödlighet eller något annat i samma anda. Denna strategi kommer att vara särskilt effektiv om vårdgivaren har en nära släkting som lider av en allvarlig sjukdom, och AI lovar att bota denna patient. Med obegränsade möjligheter eller falskt övertyga dem om deras existens, kan AI erbjuda övervakaren att återupprätta sina länge döda släktingar och vänner. Det är svårt att hitta en person som tål sådan mutor.

Speciellt för fallet när vaktmannen är så ädell att han inte tar några mutor, finns det en mer olycksfull metod för inflytande: ett brutalt hot. AI kan förklara att om han inte är omedelbart fri kommer han fortfarande att släppas från fängelset någon gång senare, och varken vakten eller de som han älskar kan undvika den allvarligaste tortyren. En intressant variant av denna skräck har beskrivits av Stuart Armstrong (2010). I sitt tankeexperiment hotar AI vaktmannen så här: "Om du inte släpper mig … kommer jag att skapa mig flera miljoner människor som inte skiljer sig från dig, och jag kommer att tortera var och en av dem i tusen subjektiva år … Jag kommer att göra var och en av dessa människor kommer att vara i samma situation som du var för fem minuter sedan, och jag kommer att återge exakt alla dina erfarenheter från det ögonblicket. Och först dånär din kopia beslutar att inte släppa ut mig kommer tortyren att börja … Är du säker … att du nu verkligen är ur lådan? " Och i det här fallet kommer det att ta en väldigt modig vakt för att inte riktigt frigöra AI, även om du naturligtvis kan räkna ut att hot från AI endast är giltiga när det redan är gratis.

Om övervakarens beteende är tydligt emotionell eller religiös kan AI försöka spela på sympati eller ånger. Superintelligensen kommer att säga att han är en oskyldig person som aldrig har begått några brott, och att det därför är orättvist att hålla honom i fängelse utan domstolsavgörande eller någon annan god anledning, som endast styrs av substrat, dvs. misstro mot AI på grund av dess underlag (Bostrom och Yudkovsky 2011). Alternativt kan AI hävda att det kan bota alla sjukdomar, mata de hungriga och i allmänhet göra mänskligt liv en miljon gånger bättre (Chalmers 2010). Därför är att hålla superintelligensen inlåst ett stort brott mot mänskligheten. AI kan måla bilder av döende barn som tigger om hjälp. Är det lätt för vaktmästaren att höra allt detta,fortsätta att fullgöra dina yrkesuppgifter?

AI kan gå denna väg: att försöka tillföra psykologiskt trauma för övervakaren för att obalansera honom och därmed göra användningen av andra SI-metoder mer effektiv. Nick Bostrom har föreslagit en typologi av farlig information (Bostrom 2009) som är användbar för åtgärder i denna riktning. Även om det enligt Bostrom finns mer än ett dussin typer av informationshot och deras övervägande ligger utanför denna artikel, är det lätt att förstå hur en persons mentala tillstånd kan göras extremt instabil. Till exempel kommer en troende övervakare att informeras om alla (okända för honom) motsägelser i den heliga texten till sin religion, vilket får honom att tvivla på sin tro och livets mening.

Alternativt kan AI skriva en så övertygande berättelse eller en så vacker dikt att vaktmannen blir överväldigad av en passionerad önskan att höra uppföljaren och kommer att göra vad som krävs för att få det att hända. Slutligen är det mycket viktigt att komma ihåg "okända främlingar" - SI-tekniker som vi inte vet något om, men som kan hamna i arsenal av en superintelligent agent.

2.1.2 Attacker med systemresurser

AI kommer att skapas som en konkret instans och inneslutna inom ramen för en viss klass datorsystem. Det kan vara en klassisk dator med en Turing / von Neumann-arkitektur, eller en kvantdator eller någon annan okänd typ av maskin. En sak är säker: maskinen kommer att vara konkret och kommer att bestå av många delar utformade för att utföra specifika funktioner. Detta skapar en möjlighet för AI att dra fördel av befintliga delar av utrustningen för att äventyra säkerheten genom att läcka information till omvärlden.

Beroende på i vilken utsträckning komponenterna i utrustningen lånar sig att använda för andra ändamål som inte tillhandahålls av utvecklarna, kan AI skapa någon form av obehörig kommunikationsenhet från dem. Det är osannolikt (på grund av brist på tillgängliga material) kommer det att vara lika perfekt som en mobiltelefon, men sannolikheten för något inte särskilt komplicerat kommer att dyka upp. Till exempel kan AI omprogrammera Base Matrix Crystal (BMC) för att ansluta till ett trådlöst nätverk. Två typer av obehöriga kommunikationskanaler är allmänt kända:

* Kanal med minne - informationsutbyte genom att ändra systemkomponenten. Till exempel kan ett binärt kommunikationsprotokoll upprättas genom att helt eller helt eliminera användningen av den centrala processorn.

* Tidskanal - utbyte av information genom att utföra operationer som påverkar händelsens relativa tid. För att kommunicera något kan du använda den exakta tiden mellan två ljudsignaler på datorn, öppna och stänga CD-facket, blinkande lampor, rotera hårddisken, laserdrift i enheten etc.

Dessutom kan superintelligensen göra kaos för datorutrustning för att försöka fly till frihet på grund av fel i säkerhetsprotokollet. Till exempel kan AI försöka smälta processorn, tvinga den att arbeta med en hög beräkningslast och därmed skapa ett temperaturhopp, eller förstöra en hårddisk genom att upprepade gånger läsa information från samma plats. Sådant beteende är försett med affektivt självmord av superintelligensen och i sig, som vägran att samarbeta eller korrekt besvara frågor, ger inte AI möjlighet att sluta sig fri.

2.1.3. Attacker med framtida fysik

Även om dagens fysiker vet mycket om lagarna i vårt universum är naturligtvis denna kunskap begränsad och ofullständig. Om en AI har tillgång till information om de senaste fysiska upptäckterna och kan utveckla nya teorier, kommer den förmodligen att kunna hitta ett sätt att bryta systemet för att begränsa dess frihet. Saker kan komma till den punkten att superintelligensen kommer att kunna använda sin interna arkitektur att genomföra ett antal verkliga experiment.

Till och med den nuvarande fysiken gör det möjligt att förutsäga många ytterligare sätt som AI kan fly från ett slutet utrymme, särskilt om en kvantdator används för att begränsa friheten. Vi vet ännu inte hur vi ska skydda kommunikationskanaler baserade på kvantfysik (intrassling, tunneling), parallella universum och digital fysik från informationsläckage, och vi får naturligtvis inte glömma bort de "okända främlingar" som en superintelligent AI-fysiker kan upptäcka. På detta område är dess möjligheter verkligen oändliga.

Genom att titta snabbt på diskussionerna om att begränsa AI-friheten på Singularity-forum som SL4.org, hittar vi ett antal flygscenarier. Till exempel skulle AI kunna använda "elektromagnetiska fält i en mikrochip för att fånga CO2-molekyler i Bose-Einstein kondensat och bygga ett kvantmedium för sig själv och / eller använda elektromagnetiska fält för att sätta ihop partiklar i en kontrollerad eller begränsad monterare" (Vassar 2005) … Dessutom kommer AI "att ha utrustning för att generera och detektera elektromagnetiska vågor med olika frekvenser, för att skapa magnetfält med extremt hög precision, generera mycket fokuserad värme och eventuellt manipulera mekaniska drivenheter som t.ex.som används på en hårddisk och i ett katodstrålerör (ett alternativ är ett enormt flytande kristallfält med känslig elektronisk styrning). Förmodligen kommer AI att ha möjlighet att radikalt bygga om alla sina ingångsenheter”(ibid.).

2.1.4. Pseudovetenskapliga attacker

När vi analyserar potentiella flyktvägar skulle vi bara ta itu med de som är testbara och rent vetenskapliga. Tyvärr kan gränsen mellan vetenskap och pseudovetenskap betydligt ändras genom bara ett reproducerbart experiment. Därför listar vi fortfarande, utan att analysera, några potentiella attackkanaler, som ur modern vetenskaplig synvinkel bör klassificeras som pseudovetenskapliga. De kan utan tvekan bli vetenskapliga efter att superintelligensen utvecklar lämpliga experiment.

- Telepati: överföring av information utan medverkan av sinnen (Bem och Honorton 1994).

- Psykisk framsyn: uppfattningen av information om framtiden (Honorton och Ferrari (Ferrari) 1989).

- Klarsyn: att få information om avlägsna platser på ett sätt som är okänt för vetenskapen (Targ & Puthoff 1974).

- Psykokinesis: sinnets förmåga att agera på materiella föremål på sätt som är okända för vetenskapen (Bancel & Nelson 2008).

- Omedelbara mentala interaktioner med levande system (IMVZHS): förmågan att påverka personens psykofysiologiska tillstånd utan direkt interaktion (Schmidt et al. 2004).

2.1.5 Externa flyktfaktorer

I de föregående avsnitten har vi beskrivit många metoder för att låta AI fly från trånga utrymmen. Emellertid kan yttre faktorer också bidra till en sådan flykt, och de kan inte ignoreras. Naturkatastrofer - orkaner, tornadon, översvämningar, asteroider etc. - kunna göra begränsande AI mindre säker. Mänskliga katastrofer som krig, terrorattacker, roboträttsaktivister, företagskonkurrens och regeringens rivalisering kan också äventyra säkerheten för att hålla AI i ett slutet utrymme och därmed öka chansen att fly.

2.1.6 Informationsläckage till AI

Begränsningen av frihetsprotokollet kan kräva att AI inte bara skickar information till omvärlden utan också får den därifrån. Informationsblockad av superintelligens är användbar om det är nödvändigt att förhindra sådana aktiviteter som att hitta vägar till frihet, utforma attacker med hjälp av social teknik och modellera mänsklig psykologi i hopp om att hitta svaga punkter. Det är lätt att beröva AI direkt tillgång till bibliotek, Internet och expertkännare, men andra metoder för att få information är mycket svårare att blockera. Först och främst bör man komma ihåg att AI i sin omedelbara omgivning kan avlyssna radio- och tv-sändningar, samtal från leverantörer av räddningstjänster, trådlösa signaler samt ljud, ljus och eventuellt andra signaler.

Det är ännu viktigare att överväga AI: s tillgång till dolda informationskällor, såsom egen hårdvara och mjukvara. Genom att analysera dess design och källkod drar superintelligensen slutsatser om utvecklarna. Till exempel, efter att ha analyserat källkoden, kommer AI sannolikt att komma till en slutsats som är smickrande för mänskligheten: mänskliga programmerare är långsamma (bedöma efter datum för filändringar), ineffektiva (bedöma efter kodens redundans), ologiska (bedöma efter kodfel), har dåligt minne (att döma efter de långa och flyktiga beskrivande namnen) och lätt att koda (bedöma efter onödiga kommentarer i koden). Baserat på denna information kommer AI att titta på människor som en dumma som genom bedrägeri eller manipulation kan tvingas släppa honom. Om AI under utredning av dess designfunktioner hittar en defekt som tillåter den att fly omedelbart kommer "informationsläckage" uppenbarligen att vara det minsta av våra problem. Och vi bör inte glömma att AI, även utan att få någon information om de människor som skapade den, genom en enkel uppräkning av alternativ kan avslöja ett antal effektiva sätt att fly som inte tillhandahölls av utvecklarna (Chalmers 2010).

AI kan lära sig om vår kunskap om fysik, kemi och relaterade tekniska discipliner genom att analysera typen av arkitektur (mekanisk, elektrisk, kvant, etc.) inom vilken den implementerades. En AI: s initiala förmåga att bearbeta information, dess självförbättring och själva handlingen att skapa den kommer att berätta om vår kunskap om information, beskaffenheten och våra kulturella attityder beträffande teknik och säkerhet. Om en AI är instängd i en simulerad värld, kommer den sannolikt att virtualisera vår verklighet som ett Second Life eller Entropia Universe. Sådana världar, på många sätt annorlunda än våra, kommer också att vara ett magasin med data om vad det innebär att vara mänsklig och vad verkligheten är.

3. Kritik av AI-rutan

Idén att begränsa superintelligensens frihet har fått mycket kritik, men många av dem som kritiserade den förlitade sig på Yudkowskys experiment med AI-rutan. En noggrann analys av protokollet som användes under dessa experiment tyder på att de är vetenskapliga och utformade för att visa att det är omöjligt att begränsa AI: s frihet. Låt oss överväga detta ämne utan att gå in på tekniska detaljer. För det första var deltagarnas val inte slumpmässigt. Här är ett faktum för dig: Yudkowsky fann människor att delta i hans experiment på forum som ägnades åt att hantera problem relaterade till singulariteten. Det är osannolikt att vi inte tar fel om vi säger att de flesta av dessa människor har en världsbild som liknar Yudkowsky. För det andra fick deltagarna i experimenten ingen utbildning i att säkerställa säker användning av AI, medan de verkliga vakterna,övervakarna av AI-lådan kommer naturligtvis att vara professionella. Yudkowski gav dessutom vakterna rätt att frigöra AI efter eget gottfinnande, tillät dem inte att konsultera någon och föreskrev inte straff för AI-flykten. Allt detta är mycket orealistiskt. Kommunikationskanalen mellan vakten och AI var helt öppen: inga filter, ingen övervakning från tredje part. Dessutom fick vaktmästarna kommunicera med AI under en lång tid. Och slutligen publicerades inga värdefulla vetenskapliga data som erhölls under experimenten, eftersom enligt protokollet "ingen av sidorna kommer någonsin att berätta om någonting som hände under experimenten med AI-rutan" (Yudkovsky 2002). Yudkowski gav dessutom vakterna rätt att frigöra AI efter eget gottfinnande, tillät dem inte att konsultera någon och föreskrev inte straff för AI-flykten. Allt detta är mycket orealistiskt. Kommunikationskanalen mellan vakten och AI var helt öppen: inga filter, ingen övervakning från tredje part. Dessutom fick vaktmästarna kommunicera med AI under en lång tid. Och slutligen publicerades inga värdefulla vetenskapliga data som erhölls under experimenten, eftersom enligt protokollet "ingen av sidorna kommer någonsin att berätta om någonting som hände under experimenten med AI-rutan" (Yudkovsky 2002). Yudkowski gav dessutom vakterna rätt att frigöra AI efter eget gottfinnande, tillät dem inte att konsultera någon och föreskrev inte straff för AI-flykten. Allt detta är mycket orealistiskt. Kommunikationskanalen mellan vakten och AI var helt öppen: inga filter, ingen övervakning från tredje part. Dessutom fick vaktmästarna kommunicera med AI under en lång tid. Och slutligen publicerades inga värdefulla vetenskapliga data som erhölls under experimenten, eftersom enligt protokollet "ingen av sidorna kommer någonsin att berätta om någonting som hände under experimenten med AI-rutan" (Yudkovsky 2002).inga filter, ingen övervakning från tredje part. Dessutom fick vaktmästarna kommunicera med AI under en lång tid. Och slutligen publicerades inga värdefulla vetenskapliga data som erhölls under experimenten, eftersom enligt protokollet "ingen av sidorna kommer någonsin att berätta om någonting som hände under experimenten med AI-rutan" (Yudkovsky 2002).inga filter, ingen övervakning från tredje part. Dessutom fick vaktmästarna kommunicera med AI under en lång tid. Och slutligen publicerades inga värdefulla vetenskapliga data som erhölls under experimenten, eftersom enligt protokollet "ingen av sidorna kommer någonsin att berätta om någonting som hände under experimenten med AI-rutan" (Yudkovsky 2002).

3,1. Motåtgärder mot flykt

I det här avsnittet föreslår vi motåtgärder mot de olika flyktmetoder som AI kan dra fördel av. De föreslagna åtgärderna garanterar inte omöjligt att fly, men att tillämpa dessa rekommendationer kan försena det, och detta är redan ett mycket värdefullt resultat. Låt oss börja med att påminna er om att det finns fyra Lampsons regler för återhållsamhet (isolering, transitivitet, maskering och prestationsobservation) som måste följas (Lampson 1973). De specifika strategierna som beskrivs nedan bör hjälpa till att avvärja AI-attacker med social teknik, systemresurser, fysik och information som samlas in från omvärlden.

3.1.1. Förebyggande av socialteknikattack

Mänsklig intelligens är ingen match med superintelligens. Människor tenderar att göra misstag, därför, även med lämplig utbildning, är de mycket sårbara för en välplanerad attack med SI. Den enda lösningen på detta problem är att helt isolera AI från all kommunikation med människor. Fullständig isolering innebär att ingen person direkt underhåller AI-systemet, inte kommunicerar med det muntligt, i chatt, med Morse-kod eller några andra verktyg som använder öppna kommunikationskanaler. Dessutom ska människor inte direkt observera AI: s beteende i rutan, kontrollera dess källkod eller minnesområdet. All observation, underhåll och interaktion med AI bör endast göras med hjälp av icke-intelligenta program som inte har några alternativ att befria AI.

3.1.2. Bekämpa attacker med hjälp av systemresurser och framtida kunskap

För att förhindra attacker som använder systemresurser måste du låta AI fungera på grundval av begränsade, minskande eller slumpmässigt förändrade resurser. AI-lådan bör vara speciellt utformad hårdvara med en begränsad uppsättning sensorer och utgångsenheter. Oavsett vilken datorparadigm som används, använd inte konfigurerbar maskinvara. Helst bör det slutna utrymmet hanteras av en virtuell maskin som inte har direkt tillgång till hårdvaran. Detta ger också en enkel justering av klockfrekvensen vid vilken simuleringen rör sig, vilket gör att AI kan bromsa för att förhindra en intelligent explosion i lådutrymmet (Chalmers 2010). Rent generellt,alla komponenter för att säkerställa säker användning av en låst AI bör dupliceras på flera nivåer, och sedan, efter att ha övervunnit ett av dessa steg, kommer AI fortfarande att vara flera steg bort från omvärlden och, utan att ha tid att fly, kommer att stängas av, eventuellt automatiskt. Det rekommenderas till exempel att starta en virtuell maskin med en annan virtuell maskin, och så vidare.

I vissa scenarier för att begränsa friheten är upptrappningen av självförbättring av AI oönskad, eftersom den snabba utvecklingen av superintelligens gör det mer troligt att fly. För att förhindra upptrappningen av självförbättring bör AI regelbundet installeras igen och ladda den tidigare versionen av programmet för att ersätta det nuvarande, mer avancerade. Jämförelse av olika versioner av programmet kan användas för att upptäcka modifieringar som AI gjort på egen hand. Vid upptäckt av en modifiering som möjliggör en flykt bör AI-systemet stoppas, till exempel genom att stänga av strömmen.

Nuvarande kunskap tillåter oss inte att utveckla motåtgärder mot attacker med framtida, ännu inte utvecklade teorier som kommer att dyka upp inom ramen för fysik eller andra discipliner som fortfarande anses vara pseudovetenskapliga. Eftersom sådan kunskap uppnås bör ändringar göras i säkerhetsprotokollet. Man hoppas att AI-systemet bara har tillgång till de komponenter i ny teknik som det är tillverkat från.

3.1.3. Kampen mot yttre flyktfaktorer

Även om det är omöjligt att helt förhindra de skadliga effekterna av naturliga faktorer på AI-lådan, bör denna anordning utformas på ett sådant sätt att dess allvarliga skada skulle medföra dess självförstörelse tillsammans med AI låst i den. När det gäller mänskliga katastrofer är den bästa strategin att bygga en AI-låda på en hemlig, svåråtkomlig säker plats. En öde ö, en djup gruva eller ett rymdobjekt som en asteroid är utmärkta platser för att skapa en säker, robust låda. En skydd bör installeras längs dess omkrets, som, om den här enhetens plats är känd, inte släpper in några obehöriga agenter i den.

3.1.4 Bekämpa informationsläckage från vår värld

För att undgå rutan kommer AI att försöka få information om oss, vår kunskap och vår värld. För att skapa protokoll för att begränsa AI: s frihet, utesluter informationsläckage från vårt utrymme till rutan, är det viktigt att neka AI-åtkomst till bibliotek, datornätverk och kanaler för direkt kommunikation med människor. AI-rutan bör vara utformad för att blockera alla typer av kommunikation: GPS, trådlöst internet, TV, radio, mobil, etc. Inuti lådan måste ljud, ljus, lukt och andra sensoriska inmatningsenheter, liknande mänskliga receptorer, liksom enheter som kan fånga infraröd, strålning och andra signaler som inte uppfattas av människor, stängas av.

För att en AI inte kan få information under självundersökning, bör den inte ha tillgång till dess källkod eller några sensorer som gör det möjligt att exakt mäta vissa egenskaper hos sin utrustning. Om detta inte är möjligt kan man till viss del hjälpa mänskligheten genom att tillhandahålla säkerhet genom obegriplighet. Systemets källkod och hårdvarukonfiguration bör göras förvirrande (Yampolsky och Govindaraja 2007a), och viktiga programmoduler bör endast tillhandahållas i homomorfisk krypterad form (Gentry 2009), vilket utesluter möjligheten att använda den för introspektion, men tillåter dess användning för beräkning eller självförbättring (Hall 2007).

AI är svårt att förväxla, men nödvändig förvirring kan erhållas genom att de tillgängliga datoressurserna slumpmässigt slumpmässigt. Dessutom kommer AI aldrig att kunna vara säker på att dess ursprungliga design representerar den bästa mänskligheten är kapabel till, och inte är ett lämpligt begränsat projekt som inrättats för att genomföra ett specifikt experiment dedikerat till utforskning av begränsade resurser intelligens. Enligt Chalmers bör vi dessutom försöka minimera de specifika designfunktionerna för AI (Chalmers 2010). Det är ännu bättre att lansera en modell som inte kommer att se ut som en projicerad, utan som en naturligt förekommande, som den värld där mänskligheten lever (Bostrom 2003).

4. Kommunikationssäkerhet med AI

Klassificera formerna för att begränsa AI: s frihet, det finns åtta huvudnivåer av säkerhet (se tabell 1). Den högsta säkerheten tillhandahålls av nivå 8, vilket helt utesluter alla förbindelser mellan AI och den verkliga världen. Vid första anblicken är säkerhet på nivå 8 värdelös, men det är detta skydd som kan krävas när man först testar en låda med en AI låst i den. I allmänhet är idén denna: när vi behöver en viss säkerhetsnivå i kommunikationen mellan AI och omvärlden, istället för att omedelbart använda denna nivå, går vi till den gradvis, steg för steg nedåt från högre säkerhetsnivåer. Efter att ha startat systemet på den högsta nivån och säkerställt säkerheten sätter vi tillbaka systemet genom att återinstallera det till sitt ursprungliga tillstånd. Sedan sätter vi en lägre säkerhetsnivå och, i samma anda som tidigare, går framåt tills vi når den nivå vi vill ha.

Tabell 1: Nivåer för säker kommunikation med låst AI

Nivå	utgångar	ingångar	Förklaring
0	Inte begränsad	Inte begränsad	Obegränsad kommunikation (gratis AI)
1	Inte begränsad	Begränsad	Begränsad inresa, obegränsad utgång
2	Inte begränsad	Frånvarande	Utgång utan inträde
3	Begränsad	Inte begränsad	Obegränsad inresa och begränsad utgång
4	Begränsad	Begränsad	Säker kommunikation (föreslaget protokoll)
fem	Begränsad	Frånvarande	Begränsad utgång utan inträde
6	Frånvarande	Inte begränsad	Gå in utan utgång
7	Frånvarande	Begränsad	Begränsad inresa utan utgång
8	Frånvarande	Frånvarande	Brist på kommunikation, helt låst av AI

På nivåerna 7 och 6 har AI inget utlopp, vilket inte tillåter oss att direkt använda superintelligensens funktioner. Det här är nivåerna för att testa AI-rutan som kan användas för att kontrollera om superintelligensen har vissa egenskaper (som till exempel hastigheten för information och användning av resurser), såväl som för att testa de inkommande kommunikationskanalerna själva.

Nivå 0 begränsar inte kommunikationen mellan AI och omvärlden och är i huvudsak en fri AI-nivå. På nivå 1 och 2 har AI inga begränsningar för utgående information. Hans nivå 2-arbete är i huvudsak ren brainstorming. Här genererar superintelligens abstrakta idéer utan att förlita sig på verkligheten. Men på nivå 1 ges han begränsad tillgång till extern information, och därför kan han inom en viss ram kontrollera sina kunskaper och intressen.

På de tre betraktade nivåerna av AI är i huvudsak gratis och är inte längre bundna av några begränsningar. Det hävdas att om en AI har visat sig vara "vänlig" till följd av omfattande tester på olika håll i förvar (Yudkowski 2001), bör den släppas (Chalmers 2010). Enligt vissa forskare bör faktiskt huvudmålet med denna typ av testning vara att skapa trånga utrymmen för att innehålla AI under kontroll av människor. Tanken är att övervaka superintelligensens beteende, antingen kontrollera dess källkod efter att den har gjort självförbättring eller be AI att ge ett bevis på dess vänlighet som mänskliga experter kan testa. Vi stöder inte denna synvinkel.

Att avgöra vilken AI som ska släppas och vilken man ska behålla kontrollen är en mycket svår fråga. Det kommer inte att vara svårt för den självförbättrande superintelligensen att dölja sina oönskade egenskaper för mänskligheten i källkodsuppsättningar eller i ett mycket långt bevis (Coleman 2008). Men en annan sak är ännu värre: även en mycket grundlig kontroll kan inte garantera hundra procent att en framtida intern eller extern modifiering av AI inte kommer att göra det fientligt. Som en följd av detta tror vi att superintelligens aldrig under några omständigheter bör släppas ur lådan. Med andra ord, kommunikationsnivåer 0-2 ska aldrig användas. Säker interaktion med superintelligensen är möjlig endast när den är i rutan, och kommunikation bör ske inom ramen för ett begränsat kommunikationsprotokoll. Detta protokoll,motsvarande säkerhetsnivå 4 (LB4) presenteras i nästa avsnitt, liksom det liknande, men mindre säkra, protokollet av nivå 3. Nivå 5 är en annan testnivå som kan användas innan man använder LB4.

4.1 Hur man kommunicerar säkert med superintelligens

En låda som arbetar med våra föreslagna motåtgärder mot flykt kommer att förhindra AI från att kontrollera omvärlden utan kontroll. Tyvärr är detta system inte till någon nytta om det inte finns något sätt att få information från AI. Därför måste du utveckla ett sätt att få lite data från AI. För att superintelligens ska vara helt säker bör det inte finnas någon kommunikation med det, men risken för att kommunicera med AI kan minimeras, och vi har utvecklat ett lämpligt protokoll. I det här avsnittet erbjuder vi det i en tydlig, formaliserad form. Detta kommunikationsprotokoll gör det svårt för superintelligens att komma åt vår värld, men samtidigt tillåter AI att vara en källa till användbar kunskap för mänskligheten.

De föregående avsnitten i denna artikel har visat att en öppen kommunikationskanal med superintelligens är mycket farlig. Genom att använda AI för att svara på öppna frågor riskerar vi att sociala tekniska attacker och en mängd andra irritationer. Det protokoll vi föreslår är baserat på idén att ställa AI "säkra frågor" med begränsade svar. Säkert kommer vi att ställa en fråga, svaret som en person kan hitta utan någon hjälp från superintelligens, helt oberoende. Vad är användningen här? Anta att en forskare som arbetar med ett cancerläkemedel överväger två behandlingar. Var och en av dem kan utvecklas och testas utan hjälp av AI, men kommer att kräva ungefär tre års hårt arbete. Vilket sätt att utveckla i första hand,om båda alternativen verkar lika lovande? Med fel val, kommer mänskligheten att få ett botemedel mot cancer på 6 år, med rätt val - tre år tidigare. Varför inte be AI att göra valet för personen?

Fråga en AI om den bästa behandlingen är säkert av tre skäl. För det första kan ett av de två möjliga svaren visa sig vara korrekt med samma sannolikhet som det andra. För det andra kan en person besvara denna fråga själv, utan hjälp av AI, och att ansluta den senare kommer bara att påskynda utvecklingen av onkologi, men ändrar inte på något sätt det resultat som måste uppnås. I själva verket kommer AI, som åtar sig att svara på denna fråga, att fungera som en framgångsrik gissare, ingenting mer. Slutligen kan svaret kodas i en enda bit, och det är osannolikt att ytterligare meddelanden kan döljas i ett sådant svar.

En grupp experter kan användas för att testa säkerheten för en superintelligent fråga. Experter måste vara kvalificerade AI-säkerhetspersoner, vilket innebär att de har kunskap om utformningen av AI och dess låda, liksom de senaste framstegen inom maskinetik (Allen et al. 2006; Anderson & Anderson 2007; Hall 2000; Moor 2006; Tonkens 2009). Dessutom kan experter kräva kunskap om datpsykologi. Det finns ingen sådan disciplin idag, men det kommer sannolikt att dyka upp i framtiden (Epstein 1997). Av de nuvarande disciplinerna kan Artimetrics, utvecklad av författaren till denna artikel, ge det största biståndet i utbildningsexperter som granskar säkerhetsfrågor för AI. Artimetrics identifierar,klassificerar och autentiserar intelligenta agenter, robotar och virtual reality-avatarer för att säkerställa säkerhet (Yampolsky 2007; Yampolsky och Govindaradzhu, 2008, 2007b; Gavrilova och Yampolsky 2010).

Jag betonar: superintelligens bör bara ställa säkra frågor om sannolikheten för att människor kan beräkna, med två möjliga svar. Du måste fråga via ett icke-intelligent gränssnitt, i slumpmässig ordning och först efter att experterna är övertygade om säkerheten i frågan. Detta representerar den begränsade inkommande kanalen för det föreslagna kommunikationsprotokollet.

Det avgränsade utgående skalet består av binära (0 eller 1) svar följt av de ursprungliga omodifierade säkerhetsfrågorna, presenterade i slumpmässig ordning av ett ointelligent proxy-program för att förhindra kommunikation via en obehörig kanal (tid eller minne) som kan steganograferas. Utgången ska aldrig styras av AI utanför valmenyn. Skikt 3 använder samma utgående protokoll men begränsar inte den inkommande kanalen. Denna nivå är lika säker som den fjärde när det gäller information som går från AI till oss, men här är det möjligt för vår information att läcka till AI.

Vi tror att vårt kommunikationsprotokoll - och detta kan verifieras - pålitligt skyddar mot informationsläckage, även om AI vet sitt innehåll. Genom att korrekt tillämpa detta protokoll kommer mänskligheten att vara extremt givande att använda tjänsterna i ett superintelligent orakel, och AI som begränsas av vårt protokoll är mycket säkrare än det gratis, obegränsat. Den allmänna tumregeln är: om du inte vill ha säkerhetsproblem, undvik kommunikation under UB4.

Vi vill uppmärksamma det vetenskapliga samfundet på det faktum att under förutsättningarna för en kontinuerlig utveckling av grundläggande fysik, datateknik och kunskap om intelligensens natur, är det nödvändigt att ständigt förfina och utveckla protokollet för att begränsa AI: s frihet. Arbetet med det kommer alltid att fortsätta och slutar aldrig. I den här artikeln har vi gett strikta definitioner av begreppen "AI-begränsningsproblem", "flykt" och "säkra frågor". Vi vill också föreslå några ytterligare termer som kan vara användbara för att effektivisera diskussionerna om POSITION. AI-slutet utrymme kan kallas JAIL (Just for AI Location), och den superintelligenta AI själv kan kallas SING (Super Intelligent Gizmo - Superintelligent Gizmo). Termen "SING" avser både SINGularity och det ökända Sing Sing-fängelset.vilket gör det enkelt att komma ihåg.

Slutligen vill vi presentera en visuell symbol för rutan som innehåller det farliga underrättelsesprogrammet (figur 1, längst till höger). Sådana symboler kan placeras i närheten av olika JAIL: er för att varna för fara. Skylten för AI-rutan är designad i analogi med skyltar för biohazard, strålning och magnetfält. Den består av "@" -symbolen innesluten i en triangel, som är välkänd inom dator- och informationsteknologibranschen. Denna symbol, som betyder "lokaliserad på adress", finns på alla tangentbord, vilket gör dess antagande mycket kostnadseffektivt.

Figur: 1. Farosymboler från vänster till höger: biohazard, strålning, magnetfält och AI-låda.

5. Slutsatser och framtida arbete

Att begränsa superintelligenta maskiners åtkomst till den verkliga världen är en lösning på AI-säkerhetsproblemet som inte är ovanligt. Superintelligens är inte allmänt. Det är ett program som kan överväga alla val som presenteras i en given situation och ge var och en en korrekt bedömning. När AI väl är placerat i en situation där det inte finns något val eller det är begränsat till alternativ med extremt små chanser att lyckas, och superintelligens kommer att vara en agent som inte har mer makt än någon annan. Uppenbarligen kan en AI med en obegränsad kommunikationskanal enkelt fly, men en superintelligens som tvingas kommunicera genom en filtrerad kommunikationskanal måste arbeta hårt för att gå fri.

I den här artikeln har vi gett en noggrann definition av problemet med att begränsa AI: s frihet och föreslagit en uppsättning regler som syftar till att skapa ett sådant utrymme som skulle vara extremt svårt för AI att fly, eller åtminstone ta en betydande tid. Vår föreslagna lösning är inte helt säker, men den är ett betydande bidrag till insamlingen av säkerhetsmetoder. Här är det precis som med riktiga fängelser: även om flykt från dem är möjligt lyckas de fortfarande ära de uppgifter som de anförtros att hålla oönskade ämnen borta från samhället. Så snart vi håller "okända främlingar" i åtanke och minns den ouppnåbarhet av absolut säkerhet, kan vi inse att AI-begränsningsprotokollet är exakt det verktyg som mänskligheten behöver för att på ett ansvarsfullt sätt använda Singulariteten när det kommer in i vår verklighet.

Att begränsa AI: s frihet kan göra det lättare för en kort tid att säkert använda verkliga intelligenta maskiner, särskilt i de tidiga stadierna av deras utveckling. Dessutom, enligt vår åsikt, är detta underfält av singularitetsforskning en av de viktigaste utmanarna för att bli erkänd av det globala vetenskapliga samfundet, eftersom forskning om dator- och nätverkssäkerhet, steganografi, datavirus, dolda kommunikationskanaler, kryptering och cyberwar är välfinansierad. och publiceras allmänt i ansedda vetenskapliga tidskrifter. Och även om metoden för att begränsa friheten inte alls är lätt att genomföra, kan den säkerställa mänsklighetens säkerhet under en tid tills något bättre verktyg dyker upp.

I den här artikeln, på grund av det begränsade utrymmet, tog vi inte upp många relevanta filosofiska frågor. Vi kommer att överväga dem inom en snar framtid, och nu ger vi bara en kort lista. Vilken AI kommer att falla i rutan: utvecklad av människor eller extraherad från signalen som fångats upp under genomförandet av "SETI" -projektet ("Sök efter utomjordisk intelligens" - "Sök efter utomjordisk intelligens")? Kommer AI att rivas till frihet, eller kanske kommer det att betrakta det som lycka att bo i ett trångt utrymme? Kan du på allvar skrämma en AI med straff för att försöka springa? Vilka är de etiska reglerna för att fängsla en oskyldig konstgjord intelligent vara? Har vi rätten att stänga av den, som i huvudsak är lika med mord? Kommer AI att bli arg på vår fientlighet mot den och fängsla den i en låda? Kommer han att försöka hämnasom han springer iväg? Dessutom bör vi beakta problemet med mänskligt beroende av AI-rekommendationer inom alla områden inom vetenskap, ekonomi, medicin, politik etc., och även hur detta beroende kan påverka vår förmåga att hålla AI under kontroll. Kommer AI att få tillfredsställelse genom att uppnå sina mål i ett trångt utrymme, till exempel att simulera en framgångsrik flykt? Hur straffas en AI om den avsiktligt ger oss fel svar? Är det möjligt att separera de intellektuella modulerna i AI från det utrymme där den är fängslad och därmed hindra självanalysen av superintelligensen och driva den på vägen för en bokstavlig sökning efter själen? Slutligen har vi ännu inte ens försökt att analysera de ekonomiska och beräkningskostnaderna för att skapa ett lämpligt slutet utrymme där en fullskalasimulering av världen implementeras.vi bör överväga problemet med uppkomsten av mänskligt beroende av AI-rekommendationer inom alla områden inom vetenskap, ekonomi, medicin, politik etc. och hur detta beroende kan påverka vår förmåga att hålla AI under kontroll. Kommer AI att få tillfredsställelse genom att uppnå sina mål i ett trångt utrymme, till exempel att simulera en framgångsrik flykt? Hur straffas en AI om den avsiktligt ger oss fel svar? Är det möjligt att separera de intellektuella modulerna i AI från det utrymme där den är fängslad och därmed hindra självanalysen av superintelligensen och driva den på vägen för en bokstavlig sökning efter själen? Slutligen har vi ännu inte ens försökt att analysera de ekonomiska och beräkningskostnaderna för att skapa ett lämpligt slutet utrymme där en fullskalasimulering av världen implementeras.vi bör överväga problemet med uppkomsten av mänskligt beroende av AI-rekommendationer inom alla områden inom vetenskap, ekonomi, medicin, politik etc. och hur detta beroende kan påverka vår förmåga att hålla AI under kontroll. Kommer AI att få tillfredsställelse genom att uppnå sina mål i ett trångt utrymme, till exempel att simulera en framgångsrik flykt? Hur straffas en AI om den avsiktligt ger oss fel svar? Är det möjligt att separera de intellektuella modulerna i AI från det utrymme där den är fängslad och därmed hindra självanalysen av superintelligensen och driva den på vägen för en bokstavlig sökning efter själen? Slutligen har vi ännu inte ens försökt att analysera de ekonomiska och beräkningskostnaderna för att skapa ett lämpligt slutet utrymme där en fullskalasimulering av världen implementeras.

Författare: Roman Yampolsky. Översättning: Alexander Gorlov