Hur Voynich Manuskripthemligheter Avslöjas: En Utredning - Alternativ Vy

Innehållsförteckning:

Hur Voynich Manuskripthemligheter Avslöjas: En Utredning - Alternativ Vy
Hur Voynich Manuskripthemligheter Avslöjas: En Utredning - Alternativ Vy

Video: Hur Voynich Manuskripthemligheter Avslöjas: En Utredning - Alternativ Vy

Video: Hur Voynich Manuskripthemligheter Avslöjas: En Utredning - Alternativ Vy
Video: The Voynich Manuscript Decoded and Solved? 2024, Maj
Anonim

Vad som ligger bakom de sensationella nyheterna om Voynich-manuskriptet och om ryska forskare är att det är möjligt att exakt bestämma språket från texten, hur adekvata matematiker arbetar för "fältet" av lingvistik.

Den 19 april spridda ryska medier nyheter om den "epokskapande" upptäckten av ryska matematiker: forskare som använde den nya metoden visade inte bara betydelsen av det berömda "Voynich-manuskriptet" utan kunde också fastställa att det var skrivet på två språk och med undantag för bokstäver för vokaler.

Voynich Manuscript är ett medeltida illustrerat manuskript köpt 1912 av antikhandlaren Wilfred Voynich. Skapad på 1400-talet (baserat på radiokoloanalys av pergament - men de flesta forskare anser för närvarande inte själva texten som en senare förfalskning), den skrivs på ett okänt språk med ett okänt alfabet. Att döma av illustrationerna består texten av temablock: botaniska, astronomiska, farmakologiska och andra. Komplexiteten med att avkoda texten gjorde Voynich-manuskriptet till en "helig gral" för kryptografer och föremål för många studier, inklusive de som använder Big Data-metoder.

Nyheten om manuskriptet rapporterades som något sensationellt. Detta väckte omedelbart misstankar.”Innan det misslyckades alla försök att dechiffrera ett unikt dokument och till och med bara förstå om det är en meningsfull text. 600 år av värdelösa ansträngningar!.. Kryptografer från CIA och NSA, superdatorer och till och med läkare med "ockulta vetenskaper" undertecknade sin fullständiga impotens. Det senaste meddelandet från kryptolog Gordon Rugg från Keele University i Storbritannien lyder:”Voynich-manuskriptet är falskt. En sådan”komplex text” är lätt att konstruera för alla som är bekanta med enkla kopieringsmetoder, säger artikeln.

Först erkändes meningsfullheten i texten redan på 1970-talet och bekräftades flera gånger i studier av 2010-talet, som skrevs om tillräckligt detaljerat även i inhemska medier. För det andra presenterades upptäckten som skickades till nyheterna endast i form av ett institutförtryck och inte i en artikel i en internationell peer-reviewed journal (förtrycket publicerades också 2016).

Dessa konstigheter i presentationen av materialet tvingade oss att först söka förtydliganden från författaren till studien och sedan till oberoende experter - lingvister som arbetar med statistiska och matematiska metoder, samt med avkodning av gamla manus.

Det är lätt att skriva en formel, men det är mycket dyrt att utföra numerisk analys

Kampanjvideo:

Först, kort om essensen av studien. Förtryckarnas författare, matematiker från Moskvainstitutet för fysik och teknik och Institutet för tillämpad matematik från Ryska vetenskapsakademin, förlitar sig på deras verk, enligt vilka "frekvensfördelningen av textsymboler är en stabil egenskap inte för författaren eller ämnet för texten, utan för språket." Det vill säga att med hjälp av en uppsättning med matematiska verktyg är det möjligt att bestämma på vilket språk det skrivs på grund av det faktum att varje språk har sin egen karakteristiska "profil" (distribution av Hurst-exponenten). Vidare, med utgångspunkt från dessa metoder, konstaterade forskarna att texten i manuskriptet skrevs på en blandning av flera språk. Samtidigt lades till falska mellanslag och symbolerna som betecknar vokalljud togs bort.

Studiens huvudförfattare, Yuri Orlov (IPM RAS och MIPT), betonade att Voynich-manuskriptet inte alls är huvudmålet för deras arbete. "Det" sensationella "manuskriptet är bara en illustration av den matematiska metoden att känna igen språk från text - ett faktiskt problem för maskininlärning," sade Orlov.

Manuskriptet i sig är absolut inte intressant för oss. Vetenskap hänvisar specifikt till statistik över språk. Genom det kan vi förstå på vilket språk manuskriptet är skrivet. Men inte vad som står där, det här är en viktig punkt. - Yuri Orlov. MIPT och Institute of Applied Mathematics uppkallat efter M. V. Keldysh

När det gäller den språkliga metoden som används i arbetet noterar Orlov att analysen av frekvensen av bokstavskombinationer i själva texterna är en välkänd sak. Hurst-indikatorn är dock dåligt känd för lingvister, eftersom det är svårt att beräkna även i matematiska termer. Formeln i sig är lätt att skriva, men numerisk analys är mycket kostsam. För detta är superdatorn vid institutet uppkallad efter M. V. Keldysh, betonar matematikern.

Valet av indoeuropeiska språk för analys förklaras av det faktum att de alla är mycket lika, säger Orlov. Indikatorer som utvecklats av matematiker gör det enkelt att skilja språk inom samma språkgrupp, men inte mellan familjer. Naturligtvis är det teoretiskt möjligt att utföra samma arbete med andra grupper (Ural, Altai eller andra), men värdet av analysen ligger i dess fullständighet, är Orlov säker. När det gäller indoeuropeiska språk är det inte svårt att skriva en grupp av texter för varje språk, det är svårare att göra det med andra familjer.

När han återvände till Voynich-manuskriptet noterade Orlov att han och hans kollegor citerade fem bevis (den logaritmiska profilen för bokstäver i bokstäver i ett och flera språk, spridningen av Hurst-exponenten, spektralporträttet av matrisen med villkorliga sannolikheter och andra) av hypotesen om blandningen av språk i manuskriptet och raderingen. bokstäver för vokaler. De distanserar sig med eftertryck från "tillhållet runt manuskriptet", men presenterade ett unikt resultat - en öppen metod, statistisk analys med en bedömning av tillförlitlighet som kan verifieras oberoende.

Slutsatsen avskrivs av det faktum att vi inte förstår på vilket material de härledde och vad de kontrollerade deras formel

Själva antagandet att texten i Voynich-manuskriptet saknar bokstäver för vokaler, med fel mellanrum är vacker och bra, konstaterar lingvisten Evgenia Korovina, som är engagerad i matematisk språkstatistik (Institute of Linguistics, Russian Academy of Sciences). Tidigare lade ingen fram en sådan hypotes. Hon förklarar till exempel vackert varför det finns färre bokstäver än vad som förväntas för en europeisk text. Men problemet är att författarna till studien inte ens angav vilka texter på olika språk de jämförde och vad som var volymen för dessa tester. Ett stort antal språk nämns i förtrycket. Därför är studien inte reproducerbar: om du tar godtyckliga texter på samma språk är det inte ett faktum att samma mönster kommer ut.

Maria Molina, specialist på corpusmetoder för studier av antika språk (Institute of Linguistics, RAS), håller med Korovina. Nya metoder för bearbetning av språkdata hjälper henne att få information om vad som tidigare var stängt för språkforskare. Dåligt förberedda inmatningsmaterial diskrediterar ofta även de finaste databehandlingsteknikerna.

Slutsatsen avskrivs av det faktum att vi inte förstår på vilket material de härledde det och på vilken grund de testade sin formel. För mitt material vet jag med säkerhet att det finns ett litet metodologiskt fel - och jag får kritiskt olika siffror. - Maria Molina. Institutionen för lingvistik RAS

”Garbage in - garbage out”, tillägger Molina (GIGO är en princip inom datavetenskap som innebär att felaktiga inmatningsdata kommer att resultera i felaktiga resultat, även om algoritmen i sig är korrekt, - notera Indicator. Ru).

Statistiska metoder är fortfarande ledtrådar till resultat, inte resultat

Albert Davletshin (anställd vid Center for Linguistic Comparative Studies vid Institute for Comparative Studies vid Ryska statsuniversitetet för humaniora, studerar maya- och polynesiska språk) talade ännu mer skarpt. Om författarna till förtrycket inte skulle dechiffrera Voynich-manuskriptet, varför gör de det? Och vidare, om vi pratar specifikt om avkodningen av en okänd skrift, uppstår fråga efter fråga:”Det finns inga initiala uppgifter om att skriva - vilken typ av bokstav? Hur erhålls de olika transkriptionerna? Hur många karaktärer? Vad ligger till grund för befintliga antaganden om skrivets karaktär? Vad är längden på ett ord åtskilt av mellanslag och utan mellanslag? Vad betyder mellanslag? Hur stor är ordboken? Hur stor är förhållandet mellan signaturer och ritningar?

Först visar det sig att texten är dansk och endast dansk (och detta är historiskt omöjligt, det finns inget ord om i verket). Då visar det sig att texten finns på två okända språk (verifiering i detta skede visar sig vara omöjlig och tas på tro). Dessutom finns det många konservativa sätt att visa att två (stora) sidor är skrivna med en bokstav, men på olika språk, utan att använda komplexa matematiska modeller. Slutligen, om vokaler tas bort från texten, hur mycket bekräftas detta av standard, sedan länge kända metoder (till exempel av Sukhotin, Shevoroshkin och Ventris)?"

Davletshin kritiserar också okänsligheten för filologi och historia, som är karakteristisk för denna typ av forskning:

Vad jag ser i texten: det finns ofta människor som vill ta källa X och glömma att det är en källa och finns i något historiskt, inklusive språkligt, sammanhang och på något sätt räknar något i det. Hypotesen att det finns mer än ett språk i ett manuskript är intressant. Men du kan på något sätt visa det mänskligt. Statistiska metoder är fortfarande ledtrådar till resultat, inte resultat. -Albert Davletshin. Center for Linguistic Comparative Studies IVKA RSUH

Det finns inget kriterium för att skilja intressanta resultat från hemska resultat

En mer balanserad ståndpunkt togs av Georgy Starostin, en expert på jämförande historisk lingvistik (RSUH). Han var mer intresserad av hur användbara nya matematiska metoder är för att lösa problem som lingvister står inför.”Modellen som presenteras i artikeln gör ett konstigt intryck. Å ena sidan verkar det tillhöra kategorin "blind", analysera textdata utan några preliminära bedömningar om alfabetets struktur (till exempel bör grafer, som engelska ch, sh, betraktas som kombinationer av två bokstäver, även om detta faktiskt är en ljud). Å andra sidan kastas vokaler ut från de jämförda strängarna, som enligt författarna till texten innehåller mindre information och snarare lägger till buller. I allmänhet är testbasen helt klart mycket liten, det är omöjligt att prata om något grundläggande på så många språk."

Resultaten av jämförelsen av indoeuropeiska och urala språk, som presenteras i jämförelsetabell 3 i artikeln, inspirerar inte till någon speciell optimism i Starostin. Några indikatorer på graden av språk närhet fångas väl (till exempel intra-germanska eller intra-romanska anslutningar), andra dåligt (till exempel identifierar metoden inte längre den indoeuropeiska familjen). Det viktigaste är att det inte finns något kriterium för att skilja intressanta resultat från hemska resultat. I bästa fall gör metoden det möjligt att särskilja små språkliga grupper (även om det inte fungerar här mellan närbesläktade finska och estniska), men alla dessa grupper kan identifieras på ett tillförlitligt sätt utan den.

Tabell 3 från förtrycket, som visar resultaten av jämförelsen av indoeuropeiska och urala språk. Samma färg i tabellen. Tre grupper av språk identifieras som är parvis nära (i den mening som L1-normen för fördelningar av ordnade frekvenser i texter utan vokal). Några oväntat nära språkpar är markerade i rött, till exempel tyska / ungerska, engelska / estniska, latin / baskiska och grekiska / finska. Förtrycksförfattare: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A
Tabell 3 från förtrycket, som visar resultaten av jämförelsen av indoeuropeiska och urala språk. Samma färg i tabellen. Tre grupper av språk identifieras som är parvis nära (i den mening som L1-normen för fördelningar av ordnade frekvenser i texter utan vokal). Några oväntat nära språkpar är markerade i rött, till exempel tyska / ungerska, engelska / estniska, latin / baskiska och grekiska / finska. Förtrycksförfattare: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A

Tabell 3 från förtrycket, som visar resultaten av jämförelsen av indoeuropeiska och urala språk. Samma färg i tabellen. Tre grupper av språk identifieras som är parvis nära (i den mening som L1-normen för fördelningar av ordnade frekvenser i texter utan vokal). Några oväntat nära språkpar är markerade i rött, till exempel tyska / ungerska, engelska / estniska, latin / baskiska och grekiska / finska. Förtrycksförfattare: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A.

Slutligen är det en intressant idé att bestämma den genetiska egenskapen hos ett språk genom distributionen av Hurst-exponenten och kanske till och med komma till en viss vetenskaplig punkt. Men detta kommer att kräva bearbetning av ett stort antal texter på olika språk. Och problemet uppstår omedelbart: många språk är oskrivna, och hur korrekt det är att jämföra de alfabetiska inspelningssystemen med fonetiska transkriptioner är fortfarande oklart. Det kommer att finnas väldigt lite praktisk mening från denna idé, är Starostin säker. I bästa fall kan det verkligen tillämpas på incidenter som Voynich-manuskriptet, när det finns en hypotes att något språk med standard alfabetisk skrift är krypterat enligt vissa principer (till exempel med radering av vokaler etc.). Det finns dock mycket få sådana incidenter i världen.

Summering

Vad är i botten? Diskussionen kring IPM- och MIPT-forskningen avslöjade en djup klyfta mellan det språkliga samfundet (även de som använder statistiska metoder) och”outsiders” angående lingvistespecialister som bestämde sig för att tillämpa sina matematiska verktyg på språkmaterial.

Det faktum att matematiker inte vill arbeta tillsammans med lingvister ger inte bara upphov till grova misstag, som sedan migrerar till media (till exempel, det baskiska språket i förtrycket kallas indoeuropeiskt, det finns en fras "vokalbokstäver"). Modellernas skönhet och superdatorernas beräkningskraft devalveras faktiskt av fel vid ingångspunkten. Återigen, med önskan och öppenheten för kontakter med kollegor från en annan disciplin, kunde dessa misstag lätt undvikas.

Se själva Voynich-manuskriptet här.