Om sociala belöningar

När jag nu har utrett den primära förstärkningens natur skulle jag vilja återvända till det här med sociala belöningar. Jag tycker att det är en mycket spännande och utvecklingsbar belöningsform, som tyvärr ofta blivit lite styvmoderligt behandlad i belöningsträning (klickerträning och locka-belöna-träning). Själv försöker jag nu att observera Viktor när han interagerar med mig under hälsande, lek, kel och annat umgänge, se vad han faktiskt gör, i syfte att bli bättre på att utnyttja sociala beteenden som förstärkare på ett systematiskt sätt. Nyckeln till det tror jag är att definiera belöningen inte utfrån det jag gör (stimulit, till exempel klappen) utan utifrån det hunden gör (beteendet, till exempel att han trycker sig mot handen och trampar med bakbenen), och samtidigt lägga märke till eller medvetet koppla beteendet till stimuli som kan användas för att få fram det i situationer där jag vill använda det som förstärkning.

Till exempel så är Viktor väldigt förtjust i att hoppa upp mot eller på mig, och jag är rätt säker på att det är ett självförstärkande beteende, det vill säga att han får ut något av själva hoppandet. Nu är inte jag lika förtjust i det, åtminstone inte i alla situationer, men i stället för att försöka få bort beteendet helt och hållet har jag bestämt mig för att försöka få stimuluskontroll på det. När jag med en armrörelse inbjuder honom att hoppa får han göra det, men inte annars, och i lämpliga situationer kan jag belöna honom genom att inbjuda honom att hoppa på mig. Vi är inte där än, kan jag tillägga, men vi är på väg! Jag tycker att han verkar ha fått bättre förståelse för att låta bli att hoppa (ha tassarna på marken) sedan jag infört en signal för hoppandet.

En typ av social belöning som ofta framställts som viktig i ”traditionell” hundträning är den mänskliga rösten, berömmet (och nu talar jag inte om ett inlärt förstärkningsord som ”bra”, utan beröm där tonfall och röstläge har större betydelse än orden). Frågan är om beröm är en primär eller sekundär förstärkare. Enligt mitt resonemang om primära förstärkare så ser jag på röstberöm (som sådant) som en sekundär förstärkare – det är ett stimulus, inte ett beteende. Samtidigt så har rösten något av en särställning, då den är så intimt förknippad med oss själva och vår närvaro, och därmed hela skalan av sociala beteenden som hunden visar mot oss. Men om rösten var en primär förstärkare för en hund så borde det vara möjligt att få den att arbeta enbart för att få höra en snutt med inspelat beröm. Det kanske är någon som har försökt? I samma ”traditionella” hundträning (åtminstone av senare datum – kanske inte i 70-talsböckerna jag refererade) framhålls att man verkligen ska se att hunden blir glad när man berömmer den, annars är det inget värt. Och då är vi ju där igen – observerbart beteende! Allt handlar om att låta beteenden förstärka beteenden! (Nämnde jag att jag var fascinerad av Premacks princip?)

Beteenden och stimuli som konsekvenser

Aktiv Hund har det på sistone varit en diskussion om olika typer av belöningar, där bland annat fördelar och nackdelar med att belöna med ”sig själv” (social belöning) jämfört med att använda olika ”yttre” belöningar (till exempel mat eller leksaker) har avhandlats. I mina ögon och för träningsbruk är det bättre ju fler användbara belöningar jag har tillgång till – det ökar förutsättningarna att variera och välja den bäst lämpade i varje situation.

Men vad är en belöning, eller, med ett lite mer vetenskapligt språkbruk, en primär förstärkare? Lite småslarvigt säger vi kanske att vi förstärker med godis, boll eller kamptrasa. Men godiset som sådant är ingen förstärkare, lika lite som bollen! Beteendet att äta godis är det däremot, och beteendekedjan att springa efter, gripa och hålla bollen (eller vad hunden nu gör med den). Jag har tidigare skrivit om Premacks princip, som ju säger att ett mer sannolikt beteende kan förstärka ett mindre sannolikt. Det jag säger nu är liksom Premacks princip fast omvänt: endast beteenden (inte stimuli) kan fungera som primära (positiva) förstärkare.

Jag tror egentligen inte att denna utsaga är vetenskapligt giltig. Bara ur ett vardagligt perspektiv kan jag tänka mig situationer när den inte gäller, eller det åtminstone är väldigt svårt att veta om den gäller eller inte. Och jag är ännu mer osäker på den vetenskapliga sanningshalten i det resonemang som följer. Men som praktiskt (okej, teoretiskt då …) träningstänk tycker jag att det fungerar. Det hjälper mig att hålla ordning på mina primära och sekundära förstärkare, och det tror jag är en förutsättning för effektiv hundträning. Det hjälper mig också att skilja mellan negativt och positivt straff.

Hur fungerar en förstärkning? De olika konsekvenserna i operant betingning definieras ju utifrån sin effekt på det framtida beteendet (förstärkning om frekvensen ökar, straff om den minskar) och om något tillförs (positivt) eller tas bort (negativt) ur situationen. Dessa saker är observerbara faktorer, oavsett om man tränar en människa eller en kackerlacka. Det betyder inte att förstärkningar och straff inte påverkar känslor (huruvida kackerlackor har känslor ska jag dock låta vara osagt)! Tvärtom är det sannolikt just genom känslorna som både förstärkningar och straff har sin verkan – det finns det numera även vetenskapliga belägg för. Och de olika konsekvenserna är förknippade med olika slags känslor. Niina och Kenth Svartberg har i Med sikte på 10:an beskrivit det som att spela på två olika känsloskalor: glädje kontra besvikelse och eventuellt frustration när man rör sig från positiv förstärkning till negativt straff, lättnad kontra obehag och rädsla när man använder negativ förstärkning och positivt straff.

Jag tänker mig att när vi jobbar med positiv förstärkning och negativt straff (PF-NS-skalan), som vi gör i klickerträning, så är det beteendet som utlöser de positiva känslorna hos hunden, och att den hindras från att utföra ett (förväntat) beteende som ger besvikelse och frustration. Alla sorters stimuli (åsynen av en godbit, ljudet från en klicker, prasslet i fickan, åsynen av träningsplanen) som förekommer i situationen och mer eller mindre pålitligt förutsäger förstärkande beteenden blir sekundära (betingade) förstärkare, och förekomsten av dessa kommer då att utlösa positiva känslor (förväntan) hos hunden även utan beteendet. Men om ett stimulus som är en sekundär förstärkare inte tillräckligt ofta följs av ett förstärkande beteende (en primär förstärkare) så kommer det att avbetingas och inte längre fungera som förstärkare.

Vi använder alltså beteenden för att påverka beteenden, och stimuli (förutom som signaler om vilka beteenden som kommer att förstärkas) som pålitliga förebud om möjlighet att utföra förstärkande beteenden.

Detta gäller inte för den andra skalan, den som går från negativ förstärkning till positivt straff (NF-PS-skalan). Där arbetar man i stället direkt med stimuli för att påverka beteenden. Det är stimulit/sinnesförnimmelsen som utlöser känslor av obehag eller rädsla hos hunden (PS), och att det upphör som gör hunden lättad (NF). Det är för övrigt svårt att utdela ett positivt straff utan att samtidigt utöva negativ förstärkning, och vice versa. Ett obehagligt stimulus med någon som helst duration kommer nämligen alltid att fungera som både och: det straffar det beteende som pågår när det startar och förstärker det beteende som pågår när det upphör. Detta är ännu en anledning att tänka sig för innan man använder korrigeringar i sin träning.

I praktiken är det naturligtvis inte alltid så lätt att skilja på sinnesförnimmelse och beteende. Vad skiljer hörandet (varseblivandet) från lyssnandet, till exempel? Varseblivandet kanske till och med är ett beteende? (Det finns säkert någon kognitionsforskare som har svar på det.) Vi människor kan utan tvivel njuta av våra sinnesförnimmelser – när vi lyssnar på musik vi tycker om, eller betraktar en vacker vy. Fast när jag observerar mig själv så tycker jag att musiklyssnande och vybetraktande är något som går utöver själva varseblivandet, ett beteende som sker inne i hjärnan. Precis som tänkande är det.

Om hundar på motsvarande sätt kan njuta av ljud, synintryck eller dofter är svårt att veta. Självklart kan det vara förstärkande för en hanhund att lukta på en löptikfläck. Men kvarstår den förstärkande effekten om han inte får utföra sitt sniffande beteende på fläcken, om han bara får uppleva själva doften? Omöjligt att säga – att och vad hunden faktiskt varseblir (även om det skulle ske genom direkt retning av luktbarken) kan vi inte veta säkert om det inte utlöser ett observerbart beteende.

Slut på de filosofiska grubblerierna! För praktiskt träningsbruk begränsar jag mig till att enbart tänka på observerbara beteenden som primära förstärkare. Och när jag funderar på hur jag ska förstärka ett beteende försöker jag att tänka på beteendet som hunden ska få (möjlighet att) utföra (springa efter bollen) snarare än ”prylen” (bollen) eller stimulit (bollkastet). Det ger mig en mycket mer exakt kunskap om vad som faktiskt är förstärkande för just min hund, och bättre möjlighet att reglera förstärkningskvaliteten.

När jag vill använda mig av negativt straff (eller utsläckning) måste jag se till att förhindra hunden från att utföra beteenden som skulle kunna förstärka (med Premacks ord: är mer sannolika än) det beteende jag vill straffa/inte förstärka. Här får man se upp så att de stimuli man använder i själva hindrandet (till exempel ett tag i halsbandet) inte uppfattas som obehagliga av hunden, och därmed blir ett positivt straff. Det kan vara lurigt tycker jag – gränsen är nog inte alltid solklar. Två sätt att förebygga att NS blir PS är att medvetet förknippa de stimuli man tänker använda med något positivt (det vill säga göra dem till betingade förstärkare), och att se till att det beteende som hunden får utföra i stället för det förhindrade, potentiellt förstärkande beteendet är något som hunden gillar och som i en annan situation mycket väl skulle kunna vara förstärkande. (Tänk på Premack igen.)

Ett avsett eller från början positivt straff kan också bli en betingad förstärkare, om det ofta följs av en primär förstärkare. Det tror jag är oerhört vanligt i hundträning, där ”små” straff eller sådant vars ”straffvärde” är tveksamt (”nej”, ”grälande”, ett peppande tag i nackskinnet eller ryck i halsbandet) ofta utdelas slentrianmässigt och man ständigt fått höra hur viktigt det är att genast belöna när hunden tar rättelse. Men att detta även kan ske med starkt obehagliga och smärtsamma stimuli som elstötar finns det vetenskapliga belägg för.

Så tänk på konsekvenserna! Konsekvensen blir kanske inte alltid den du avsett.

Beteendeobservationer

I dag gjorde jag ett tredje försök att genomföra den observationsövning som är en av hemuppgifterna inför nästa helgs kurs i avancerad klickerträning hos Maria. Uppgiften går ut på att man observerar hunden under 20 minuter då den får göra vad den vill, och en gång i minuten antecknar vilket beteende hunden just då utför. Observationspasset upprepas vid tre tillfällen, och resultatet sammanställs till en tio-i-topp-lista på hundens vanligaste beteenden.

Jag gjorde det första försöket under julledigheten, men det stupade på att det hela tiden kom folk och hundar gående på såpass kort avstånd att jag inte vågade låta Viktor gå omkring helt fritt, utan till exempel ropade honom till mig eller höll honom i halsbandet en stund. Efter några omstarter gav jag upp och gick hem, och tänkte att det fanns ju gott om tid att göra det någon annan dag under ledigheten, på något lugnare och ensligare ställe. Vi var nästan inte i Uppsala alls under jul och nyår, utan tillbringade en del tid på just lugnare och ensligare (nåja) ställen. Men något mer försök lyckades jag nu inte få till – vart tog tiden vägen?

I går gjorde jag därför ett nytt försök, men då blev det så mörkt att jag inte kunde vare sig skriva eller observera ordentligt, och gav upp för den sakens skull.

Men i dag då. Nu hade jag bestämt mig för att det bara skulle gå. Jag tog Viktor med ut i Hågadalen, där jag också gjort de första två försöken, men tog stolsryggsäcken med för att kunna sätta mig ner var som helst, utan att behöva leta upp en sten att sitta på. Sedan gick jag ut på ett fält där jag inte väntade mig att det skulle passera några människor, och tog ut avståndet från vägar och stigar såpass att jag inte trodde Viktor skulle våga sig så långt bort från mig. Även denna kulna, regniga januaridag dag var det nämligen rätt många som var ute och promenerade, sprang eller red i området. Och så satte jag mig ner på ryggsäcken och tog fram mitt anteckningsblock.

Själva situationen var ganska ny för oss. Till största delen har jag när jag varit ute och haft Viktor lös varit i rörelse själv och serverat rikligt med aktiviteter som belöning för bra beteenden (att han tar kontakt eller kommer till mig till exempel). När jag har suttit eller stått stilla på en och samma plats (något som jag dessutom gjort alldeles för lite) har jag för det mesta haft honom i koppel, om vi inte har ägnat oss åt någon specifik träning eller aktivitet (såsom hundlek).

Det hela var både lärorikt och intressant – jag kan verkligen rekommendera alla att göra liknande observationsstudier av sina hundar. Jag antecknade förutom beteendet varje hel minut lite löst vad han gjorde däremellan, och noterade varje gång han tog kontakt med mig.

Jag ”fuskade” en gång, då Viktor vid ett tillfälle sökte sig närmare hundra meter bort från mig, och det kom en stavgångare på vägen som han då hade mycket närmare till än till mig. Han är visserligen inte så modig av sig, men jag hade ändå inte riktigt is i magen utan ropade på honom, och belönade med godis när han kom. Men i övrigt följde jag instruktionerna för uppgiften (”om hunden spontant tar kontakt med dig får du svara, men bli passiv igen inom en minut”).

Resultatet av observationerna då? Ja, jag kan för det första konstatera att Viktor föredrar att hålla sig relativt nära mig även när jag är passiv. Med undantag för ovannämnda utflykt (som totalt tog ca två minuter i anspråk) växlade han mellan att springa iväg ca 10 till 20 meter och komma till mig där jag satt. Han kom fram och tog kontakt (föreföll förvänta sig godis eller någon aktivitet, och hoppade upp och pussades några gånger) ungefär varannan minut. Ibland stannade han vid mina fötter ett tag, uppemot en minut, men oftast varade kontakterna kanske 10–15 sekunder.

Jag ska göra övningen två gånger till innan jag sammanställer resultatet, men en inte alltför vågad gissning är nog att ”nosa” i någon form kommer att hamna överst på tio-i-topp-listan, lite beroende på hur jag väljer att klassificera de olika beteendena (nosa i rörelse och nosa på en specifik fläck kanske ska vara två olika beteenden, till exempel).

Vid det avbrutna observationsförsöket i går lät jag Viktor ha en boll (som vi lekt med och han sedan burit på under promenaden dit), och det gav mig idén till en annan observationsövning, nämligen att låta hunden välja leksak. När jag nu ändå var igång med pennan och anteckningsblocket gick jag vidare med den. Kanske skriver jag mer om den senare, för den var också intressant.

Vad är då syftet med detta, förutom att det tillfredsställer en allmänt nyfiken och kategoriserande person som mig? Att veta vilka beteenden som hunden väljer oftare än andra är mycket användbart. Klickerträning (och för den delen all träning/ beteendemodifikation, det är bara det att man i klickerträning medvetet gör bruk av principen) baserar sig i stor utsträckning på Premacks princip. Ett beteende, vilket som helst, som i en viss situation är mer sannolikt än ett annat kan användas för att förstärka ett mindre sannolikt, men önskvärt, beteende.

Det är en enkel och samtidigt fascinerande princip, men inte alltid lätt att tillämpa. För att lyckas behöver man hela tiden ha en känsla för beteendehierarkin, som givetvis skiftar beroende på hundens motivation (en hungrig hund får ätbeteendet högre upp i sin hierarki, för att ta ett enkelt exempel) och tillgängliga alternativ. Men om man lär sig behärska principen har man ett mycket effektivt verktyg för att påverka beteenden, och antalet möjliga förstärkare blir oändligt – det gäller ”bara” att veta i vilka situationer man kan utnyttja dem.

Att bli bättre på att observera beteenden och använda Premacks princip i den vardagliga hundträningen hör till mina personliga mål för året.