Lūk, kas patiesībā notiek LLM neironu tīklā

Urich Lawson | Getty Images

Izmantojot lielāko daļu datorprogrammu, pat sarežģītu, varat izsekot kodam un precīzi izmantot atmiņu, lai to izdomātu Kāpēc Šī programma rada jebkuru konkrētu uzvedību vai izvadi. Tas parasti neattiecas uz ģeneratīvo AI, kur, piemēram, neizskaidrojamie neironu tīkli, kas ir šo modeļu pamatā, pat ekspertiem apgrūtina precīzi zināt, kāpēc viņi bieži vien apvieno informāciju.

tagad, Jauns pētījums no Anthropic Piedāvā jaunu logu uz to, kas notiek Claude LLM “melnajā kastē”. Uzņēmums Jauns papīrs Grāmatā “Interpretējamo iezīmju iegūšana no Kloda 3 soneta” viņš apraksta jaunu jaudīgu veidu, kā vismaz daļēji izskaidrot, kā modelī iedegas miljoniem mākslīgo neironu, lai radītu pārsteidzoši reālistiskas atbildes uz vispārīgiem vaicājumiem.

Atveriet pārsegu

Analizējot LLM, ir viegli redzēt, kuri konkrēti mākslīgie neironi tiek aktivizēti, reaģējot uz jebkuru vaicājumu. Bet MBA ne tikai glabā dažādus vārdus vai jēdzienus vienā neironā. Tā vietā, kā skaidro antropiskie pētnieki, “izrādās, ka katru jēdzienu attēlo daudzi neironi, un katrs neirons ir iesaistīts daudzu jēdzienu attēlošanā.”

Lai sakārtotu šo haosu no viena uz daudziem un no daudziem uz vienu, pasūtiet Reti autokoderi Operācijai var izmantot sarežģītu matemātiku Vārdnīcas apguves algoritms. caur veidlapu. Šis process izceļ, kurām neironu grupām ir tendence konsekventāk aktivizēties konkrētiem vārdiem, kas parādās dažādās teksta uzvednēs.

Tas pats iekšējais LLM
Pietuvināt / Tā pati iekšējā LLM “funkcija” apraksta Golden Gate Bridge vairākās valodās un režīmos.

Šie daudzdimensionālie neironu modeļi pēc tam tiek sakārtoti tā sauktajās “funkcijās”, kas saistītas ar konkrētiem vārdiem vai jēdzieniem. Šīs funkcijas var ietvert jebko, sākot no vienkāršiem īpašvārdiem, piemēram, Zelta vārtu tilts Uz abstraktākiem jēdzieniem, piemēram, Programmēšanas kļūdas vai Papildināšanas funkcija Datorkodā tas bieži vien apzīmē vienu un to pašu jēdzienu vairākās valodās un saziņas režīmos (piemēram, tekstā, attēlos).

READ  SRAM Rival AXS jaudas mērītājs: praktiska un pirmā kārta

ka 2023. gada oktobris Antropoloģiskais pētījums Parādiet, kā šis pamata process var darboties ļoti mazos, viena slāņa rotaļlietu modeļos. Uzņēmuma jaunais papīra izmērs dramatiski paplašinās, norādot desmitiem miljonu aktīvo funkciju tā vidējās klases Claude 3.0 Sonnet modelī. Iegūtā objektu karte – ko varat izveidot Daļēji izpētīts– Izveido aptuvenu konceptuālo karti [Claude’s] Pētnieki raksta, ka “iekšējie stāvokļi ir aprēķinu pusceļā”, un tiem ir “dziļums, platums un abstrakcija, kas atspoguļo Sonneta uzlabotās iespējas”. Tajā pašā laikā pētnieki brīdina, ka šis ir “nepilnīgs modeļa iekšējo attēlojumu apraksts”, kas, iespējams, ir “par ievērojamu skaitu” mazāks nekā pilnīga Kloda 3 kartēšana.

Vienkāršota karte, kurā izskaidroti daži jēdzieni, kas "aizveriet" uz "Iekšējais konflikts" Priekšrocība Kloda antropiskajā modelī.
Pietuvināt / Vienkāršota karte, kas ilustrē dažus jēdzienus, kas ir “tuvi” “iekšēja konflikta” iezīmei Kloda antropiskajā modelī.

Pat virspusējā līmenī šīs funkciju kartes pārlūkošana palīdz parādīt, kā Klods saista noteiktus atslēgvārdus, frāzes un jēdzienus ar kaut ko tuvinātu zināšanām. a Funkcija ar nosaukumu “Capitals” Piemēram, tie mēdz būt spēcīgi aktivizēti, lietojot frāzi “galvaspilsēta”, kā arī konkrētus pilsētu nosaukumus, piemēram, Rīga, Berlīne, Azerbaidžāna, Islamabada un Monpeljē, Vērmonta.

Pētījumā arī aprēķina “attāluma” matemātisku mērījumu starp dažādām pazīmēm, pamatojoties uz to nervu līdzību. “Atšķirīgās apkaimes”, kas izriet no šī procesa, “bieži tiek organizētas ģeometriski saistītās grupās, kurām ir kopīga semantiskā saistība,” raksta pētnieki, parādot, ka “AI modeļa jēdzienu iekšējā organizācija vismaz zināmā mērā atbilst mūsu cilvēciskajiem priekšstatiem.” Līdzības jēdzieni.” Piemēram, Zelta vārtu tilta iezīme ir salīdzinoši “tuva” elementiem, kas apraksta “Alkatrasas salu, Ghirardelli laukumu, Goldensteitas karavīrus, Kalifornijas gubernatoru Gevinu Ņūsomu, 1906. gada zemestrīci un Alfrēda Hičkoka filmu komplektu”. Sanfrancisko”. vertigo“.

Dažas no vissvarīgākajām funkcijām, kas iekļautas, atbildot uz jautājumu par Kobes Braienta komandas štata galvaspilsētu.
Pietuvināt / Dažas no vissvarīgākajām funkcijām, kas iekļautas, atbildot uz jautājumu par Kobes Braienta komandas štata galvaspilsētu.

Konkrētu LLM funkciju noteikšana var arī palīdzēt pētniekiem noteikt secinājumu ķēdi, ko modelis izmanto, lai atbildētu uz sarežģītiem jautājumiem. Piemēram, uzvedne par “štata galvaspilsētu, kurā Kobe Braients spēlēja basketbolu” parāda aktivitāti virknē funkciju, kas saistītas ar “Kobe Braients”, “Losandželosas Lakers”, “Kalifornija”, “Capitals” un “Sacramento”. ”, lai nosauktu dažus, kuriem ir aprēķināta vislielākā ietekme uz rezultātiem.

READ  Android lietotāji šonedēļ iegūs Apple līdzīgas pieteikšanās funkcijas

Alexis Wells

"Televīzijas speciālists. Lepna kafijas duncis. Tieksme uz apātijas lēkmēm. Interneta eksperts. Ceļojumu nindzja." <pre id="tw-target-text" class="tw-data-text tw-text-large XcVN5d tw-ta" data-placeholder="Translation"></pre>

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *

Back to top