Du Vet Direkt Att Det Här är Porr. Kommer Datorn Att Förstå? - Alternativ Vy

2024 Författare: Keith Bush | [email protected]. Senast ändrad: 2023-12-16 14:50

Tumblr meddelade tidigt förra månaden att det skulle förbjuda porr. När den nya innehållspolitiken trädde i kraft, ungefär två veckor senare - den 17 december - blev det uppenbart att det skulle bli problem. Efter att ha installerat ett artificiellt intelligenssystem som skulle förbjuda all pornografi på webbplatsen, flaggade det felaktigt oskyldiga inlägg i 455,4 miljoner bloggar på sajten bland 168,2 miljarder inlägg: vaser, häxor, fisk och all den jazzen.

Pornografi för konstgjord intelligens

Det är oklart vilket automatiska filter Tumblr använde eller skapade sitt eget - företaget svarade inte på förfrågningar om ämnet - men det är tydligt att det sociala nätverket sitter fast mellan sin egen politik och teknik. Till exempel har webbplatsens inkonsekventa inställning till "kvinnor som visar bröstvårtor" och konstnärlig nakenhet, till exempel lett till kontextuella beslut som visar att till och med Tumblr inte vet vad de ska förbjuda på sin plattform. Hur kan ett ofta företag bestämma vad det anser vara obscen?

För det första är det svårt att blockera riskinnehåll eftersom det är svårt att definiera vad det är från början. Definitionen av obscenity är en björnfälla som är mer än hundra år gammal, redan 1896 antog Förenta staterna lagar som reglerar obscenity. 1964, i Jacobellis mot Ohio, om Ohio kunde förbjuda visning av en Louis Malle-film, utfärdade Högsta domstolen den antagligen den mest kända definitionen av hardcore pornografi idag:”Jag kommer inte att försöka definiera den här typen av material längre idag, som, som jag förstår kommer det att inkluderas i den fullständiga beskrivningen; och jag kanske aldrig kan göra det begripligt, säger domare Potter Stewart. "Men jag vet vad det är när jag ser det, och filmen som är associerad med det här fallet är det inte."

Maskininlärningsalgoritmer har samma problem. Detta är exakt problemet Brian Delorge, VD för Picnix, ett företag som säljer specialiserad artificiell intelligensteknik, försöker lösa. En av deras produkter, Iris, är en applikation på klientsidan för att upptäcka pornografi för att "hjälpa människor", som Delorge säger, "som inte vill ha porr i sina liv." Han noterar att det specifika problemet med porr är att det kan vara vad som helst, ett gäng olika saker - och bilder som inte är pornografiska kan ha liknande element. Strandpartybilden kan vara blockerad inte för att den har mer hud på sig än kontorsfotoet, utan för att den är på kanten. "Det är därför det är mycket svårt att träna en bildigenkänningsalgoritm för att göra allt på en gång," säger DeLorge."När definitionen blir svår för människor, har datorn också svårigheter." Om människor inte kan komma överens om vad porr är och vad inte, kan en dator till och med hoppas veta skillnaden?

För att lära en AI att upptäcka porr är det första du behöver göra att mata det porr. Massor av pornografi. Var kan jag få det? Det första som människor gör är att ladda ner ett gäng videor från Pornhub, XVideos, säger Dan Shapiro, grundare av Lemay.ai, en start som skapar AI-filter för sina kunder. "Detta är ett av de gråa områdena av juridisk karaktär - till exempel, om du lär dig av andras innehåll tillhör det dig?"

Efter att programmerare har laddat ner massor av porr klippte de ut icke-pornografiska bilder från videon för att se till att bilderna som de använder inte blockerar pizzaleveransarna. Plattformar betalar människor, mestadels utanför USA, för att tagga sådant innehåll; jobbet är lågbetalt och tråkigt, som att gå in i en captcha. De sitter bara och noterar: det här är porr, det här är det här. Du måste filtrera lite, för all porr kommer ut med en etikett. Lärande är bättre om du inte bara använder fotografier utan stora dataprover.

Kampanjvideo:

"Ofta behöver du inte bara filtrera porren utan snarare det medföljande materialet," säger Shapiro. "Som falska profiler med en flickas foto och telefon." Han avser sexarbetare som letar efter klienter, men det kan vara allt som inte är helt lagligt. "Det här är inte porr, men den typen du inte vill titta på på din plattform, eller hur?" En bra automatiserad moderator lär sig av miljoner - om inte tiotals miljoner - provinnehåll, vilket kan spara massor av arbetstimmar.

"Du kan jämföra detta med skillnaden mellan ett barn och en vuxen," säger Matt Zeiler, VD och grundare av Clarifai, en datorvisionsstart som gör den här typen av bildfiltrering för företagskunder.”Jag kan säga er säkert - för ett par månader sedan fick vi ett barn. De vet ingenting om världen, allt är nytt för dem. " Du måste visa barnet (algoritmen) en hel del saker så att han förstår något.”Miljoner och miljoner exempel. Men som vuxna - när vi har skapat så mycket sammanhang om världen och förstått hur den fungerar - kan vi lära oss något nytt från bara några exempel. " (Ja, att lära en AI för att filtrera innehåll för vuxna är som att visa ett barn mycket porr.) Företag som Clarifai växer snabbt idag. De har en bra databas över världen, de kan berätta för hundar från katter, klädda från nakna. Zeilers företag använder sina modeller för att utbilda nya algoritmer för sina kunder - eftersom den ursprungliga modellen bearbetade mycket data skulle personifierade versioner endast kräva nya datasätt för att fungera.

Men det är svårt för algoritmen att få rätt. Det går bra med innehåll som uppenbarligen är pornografiskt; men en klassificering kan felaktigt markera en underkläderannons som utanför gränserna eftersom bilden har mer läder än, till exempel, ett kontor. (Med bikinier och underkläder är det enligt Zeiler mycket svårt). Detta innebär att marknadsförarna bör fokusera på dessa kantfall i sitt arbete och prioritera de svåra att klassificera modeller.

Vad är det svåraste?

"Anime porr," säger Zeiler. "Den första versionen av vår nakenhetsdetektor använde inte tecknad pornografi för utbildning." Många gånger gjorde AI det fel eftersom det inte kände igen hentai. "Efter att ha arbetat med detta för klienten, injicerade vi mycket av hans data i modellen och förbättrade noggrannheten i tecknadfiltret samtidigt som vi upprätthöll riktigheten för riktiga fotografier," säger Zeiler.

Tekniken som har lärt sig att sniffa ut porr kan också användas på andra saker. Teknologierna bakom detta system är anmärkningsvärt flexibla. Detta är mer än animebröst. Pussel från alfabetet används till exempel allmänt som en automatisk kommentatormoderator i en tidning. Den här programvaran fungerar på liknande sätt som bildklassificerare, förutom att den sorteras efter toxicitet snarare än nakenhet. (Toxicitet i textkommentarer är lika svårt att fastställa som pornografi på bilder.) Facebook använder den här typen av automatisk filtrering för att upptäcka självmordsmeddelanden och terrorismrelaterat innehåll och har försökt använda denna teknik för att upptäcka falska nyheter på sin massiva plattform.

Allt detta beror fortfarande på mänsklig övervakning. vi är bättre på att hantera tvetydighet och tvetydigt sammanhang. Zeiler säger att han inte tror att hans produkt har tagit någons jobb. Det löser problemet med skalning på internet. Människor kommer fortfarande att träna AI genom att sortera och märka innehåll så att AI kan skilja det.

Detta är framtiden för moderering: anpassade, nyckelfärdiga lösningar som tillhandahålls företag som gör hela sin verksamhet genom att lära ut mer och mer avancerade klassificeringsmaskiner mer data. Precis som Stripe and Square erbjuder out-of-the-box betalningslösningar för företag som inte vill bearbeta dem själva, kommer startups som Clarifai, Picnix och Lemay.ai att göra moderering online.

Dan Shapiro från Lemay.ai är hoppfull.”Som med alla tekniker är det fortfarande på att uppfinnas. Så jag tror inte att vi kommer att ge efter om vi misslyckas. " Men kommer AI någonsin att kunna arbeta autonomt utan mänskligt tillsyn? Oklar. "Det finns ingen liten man i en snusbox som filtrerar varje skott," säger han. "Du måste hämta data överallt för att träna algoritmen på den."

Zeiler tror å andra sidan att konstgjord intelligens en dag kommer att moderera allt på egen hand. I slutändan kommer antalet mänskliga insatser att reduceras till noll eller liten ansträngning. Gradvis kommer mänskliga ansträngningar att förvandlas till något som AI inte kan göra nu, som resonemang på hög nivå, självmedvetenhet - allt som människor har.

Att erkänna pornografi är en del av det. Identifiering är en relativt trivial uppgift för människor, men det är mycket svårare att träna en algoritm för att känna igen nyanser. Att fastställa tröskeln när ett filter markerar en bild som pornografisk eller icke-pornografisk är också en svår uppgift, delvis matematisk.

Konstgjord intelligens är en ofullkomlig spegel på hur vi ser världen, precis som pornografi är en återspegling av vad som händer mellan människor när de är ensamma. Det finns viss sanning i det, men det finns ingen fullständig bild.

Ilya Khel