Pias skrivtips: Vad Matthew svarade på mina frågor om boken the bestseller code

Matthew L. Jockers & Jodie Archer Matthew L. Jockers & Jodie Archer
I mitt förra blogginlägg Så skriver du en bestseller sammanfattade jag Jodie Archer och Matthew L. Jockers bok The bestseller code.

Men boken lämnade mig med en del obesvarade frågor. På vinst och förlust skrev jag därför till Jodie och Matthew och vet ni vad - jag fick svar.

Här kommer Matthews svar på mina frågor:

The Circle

I boken The bestseller code skrev Jodie och Matthew att de analyserat tusentals böcker. Och av dem var det bara en som fick 100% sannolikhet för att nå New York Times bestseller list. Den boken var Dave Eggers The Circle. Däremot stod det aldrig i boken om The Circle nådde bästsäljarlistan.

Min fråga:
I wonder though if the book The Circle ever hit the NYT hit list? 

Matthews svar:
Yes, it hit the list for, as I recall, about 7 weeks.  It has just recently been made into a movie starring Tom Hanks!

Med andra ord så nådde The Circle bästsäljarlistan och låg där i sju veckor. Boken ska dessutom bli en film.
 

The Hunger Games och The Twilight Saga

Jag tyckte det var konstigt att Jodie och Matthew inte nämnde de storsäljande böckerna Hungerspelen av Suzanne Collins och Twilightsagan av Stephanie Mayer. Jag funderade på om det berodde på att de inte haft med dessa böcker i sin studie eller för att de fick dåliga värden i datortesterna.

Min fråga:
I also wonder if you tested:

  • The Hunger Games of Suzanne Collins and
  • The Twilight Saga of Stephanie Mayer
Did these books get a high score in your model?

Matthews svar:
No, we did not because these are both classified as Young Adult fiction.

Det var ju synd att Jodie och Matthew valde att inte analysera dessa böcker. De pratade däremot om Harry Potter, men skrev själva att de omöjligt kunde skriva en bok om bästsäljare utan att ta med några ord om just Harry Potter.
 

Topics

I boken The bestseller code så pratar Jodie och Matthew om att 30% av innehållet i en bästsäljare består av ca 1-2 olika ämnen (topics) mot 3-4 ämnen (topics) i en icke bästsäljare. Men jag undrade natuligtvis hur många topics som ryms i HELA innehållet av boken och om det finns någon skillnad mellan bestsellers och icke bestsellers om man tittar på hur många topics som ryms i 100% av bokens innehåll.

Min fråga:
I also wonder how many topics there are in 100% of a book, in general, and if there are any differenses in the number of topics between a bestseller and a non bestseller when it comes to the whole book. You did not mention this in the book.

Matthews svar:
We write about this a bit in the BSC.  Bestsellers tended to have ~30% of their topical in the first 2-3 topics, whereas non-bestsellers tended to be more topically diverse, i.e. less focused. But these are generally true observations, not hard and fast rules.

Jaha, lite av en besvikelse där att Matthew missförstod min fråga och alltså inte besvarade den. :( 
 

Topics i The Circle

Åter till boken The Circle som fick hela 100% sannolikhet för att nå New York Times bestsellser list. Hur gick det till egentligen?

När jag läste The bestseller code så tolkade jag boken som att det var jätteviktigt att det var så få som 1-2 topics som upptog 30% av bokens innehåll och om det var så många som 3-4 topics så var det ingen bästsäljare. 

Men boken The Circle hade hela 4 topics för att nå 30% av bokens innehåll, varför alltså inte stämmer med det Jodie och Matthew sagt gällde för bestsellers.

Min fråga:
I must say I do not really understand how The Circle could hit 100% in total because it could not had 100% in every singel part. First it used 4 topics to reach 30% of the book, while a bestseller only uses 1-2 topics according to your book.

Matthews svar:
In general, on average, Bestsellers tended to have ~30% of their topical in the first 2-3 topics. That is the central tendency but not a hard and fast rule.  Also, I think you may be confusing the probability with the feature profile that the machine uses to make its guess.

Jag kan inte uttala mig huruvida jag missförstått sannolikheten med funktionsprofilen som maskinen använder för sina gissningar. Jag vet mycket väl hur man räknar ut sannolikheten, men jag är inte lika bevandrad i hur deras maskin fungerar.

Så jag kan bara utgå från det andra som Matthews säger - nämligen att bara är en central tendens att en bästsäljare har 1-2 huvudämnen och att en icke bästsäljande bok har 3-4 huvudämnen.

Jag tycker dock ändå att det är konstigt att boken The Circle fick 100% när den inte uppfyllde det här kriteriet. Baserat på Matthews svar kan jag inte dra någon annan slutsats än att det här med vilka ämnen en bok avhandlar har en rätt liten sannolikhet för att påverka om boken blir en bästsäljare eller inte. Så varför skrev de då så mycket om topics i sin bok the bestseller code? 
 

Human closeness i The Circle

Det ämne som Jodie och Matthew kom fram till var det viktigaste ämnet av dem alla om man ville skriva en bestseller var ämnet "Human closeness" det vill säga mänsklig närhet.

Men The Circle handlar bara til 3% om Human Closeness. Så jag undrade hur en bok som behandlar så lite om Human Closeness kan få 100% sannolikhet för att nå NYT bestsellerlist i Jodie och Matthews datormodell.

Min fråga:
Second the topic Human closeness only had 3% which I found rather little.

Matthews svar:
It is all relative and there are many many features contributing to a books overall signal.  So, for example, fifty shades of grey has way more sex than what is typical for a NYT bestseller, but it has other features that are more typical. The ~3% human closeness in the circle is actually bit higher than the average across all bestsellers.

Tydligen är 3% om Human Closeness mer än snittet av alla bestsellers. Och då är det det ämne som är allra vanligast.

Hm. Intressant. Vet du hur jag tolkar den informationen?

Jo, att det måste finnas massvis av ämnen som fungerar i en bestseller - minst 34 stycken (100% delat med 3% ger 33,3333) - troligen hundratals.

Och visst gav Jodie och Matthew en lång lista på sådana här ämnen, men jag fick ändå intrycket av att Human Closeness var det absolut viktigaste att ha med. 

Så jag har alltså gett Human Closeness för stor betydelse, vilket betyder att Jodie och Matthew inte var så tydliga i sin bok om hur vi skulle tolka det här med ämnen.

Med andra ord är ämnen (topics) ingen stor grej och det spelar kanske inte så stor roll vilka ämnen du har med i din bok. För sambandet verkar ju vara rätt litet mellan vilka ämnen som gör en bestseller och vilka ämnen som inte gör en bestseller.
 

Språket i The Circle

En annan sak jag reagerade över var att Jodie och Matthew framhöll att det fanns ett samband mellan bestellers och den språkliga stilen. Böcker med ett mer "vardagligt" språk hade större sannolikhet att nå NYT bestsellerlist än böcker med ett mer "akademiskt" språk. Då akademiskt är min översättning så är det bäst att jag förklarar mig - med akademiskt menar jag ett språk med längre meningar, fler bisatser, längre ord och där alla orden är utskrivna i sin helhet.

I boken The Circle var språket dock perfekt balanserat mellan ett vardagligt och akademiskt språk. Det kan därför tyckas konstigt att boken fick 100% sannolikhet för att nå NYT bestsellerlist med dessa förutsättningar.

Min fråga:
Third the language was a perfect balance and not so much of a daily language that I thought was needed to get 100%. Is these part not so important as the other part when it comes to hit the bestseller list? Or did I missunderstood your book?

Matthews svar:
I think you are confusing the probability score with the feature composition. The model examines the features in a book and compares how similar those features are to the features found in books that hit the list and books that did not hit the list.  It then uses that comparison to make a guess about whether the book is more likely to be a best seller or a non-bestseller.  The machine then quantifies its guess as a probability. 

Jag vet inte hur jag ska tolka Matthews svar. Kanske det är så att det inte spelar någon roll hur vardagligt språket är, bara det är tillräckligt vardagligt? Mer vardagligt ökar kanske inte chanserna att bli en bestseller än lite mindre vardagligt - bara det inte går över gränsen till det jag kallar akademiskt. 

Ja det var de frågor jag hade. För att få Jodie och Matthew intresserade av att svara på mitt mejl så gav jag dem lite tillbaka. Jag berättade nämligen saker om Stieg Larsson som de troligen inte kände till. 
 

Det visste du inte om Stieg Larsson

Vad jag skrev i brevet till Jodie och Matthew:
By the way - one of my author friends knew Stieg Larsson and he said that Stieg died because the elevator was broken and he had to walk all stairs. Obviously his heart did not manage this. If the elevator had not been broken he might have lived today. 

Matthews svar:
Wow.  It certainly would have been interesting to interview him and get some deeper insight into his books.

Vad jag skrev i brevet till Jodie och Matthew:
I also talked to Paolo Roberto - the Swedish fighter and actor who has a role in Stieg Larssons second book - and Stieg did not asked him for permission. The publisher contacted Paolo after Stieg died and asked for his permission and Paolo actually read the fighting scene and changed it a little bit before the book was published. 

Matthews svar:
That is fascinating.  I wonder how big the changes were.

Vad jag skrev i brevet till Jodie och Matthew:
When Larssons books was to become a Swedish movie the agent called Paolo Roberto and said: I think I have the perfect role for you. Paolos reaction was: I THINK??? 

If the second book will be a movie in US Pablo wonder if he will be playing the role as himself or if there will be anyone else. He is hoping for Brad Pitt - that would be great, he said: Brad Pitt as Paolo Roberto. Wow!


Matthews svar:
:-)

Ja, det var lite mer om The bestseller code. Hoppas du blev lite mer upplyst av min mejlkonversation med författaren till boken.

Kram Pia

Kommentera gärna:

  • Kjellgren Sven • 12 maj 2017 16:23:50
    Hej Pia!
    Sista stycket i min förra skrivning föll bort och kommer här: Men det finns en rad andra frågetecken som uppstår kring min bok under arbete när jag läser dina texter om skrivkonsten. T ex detta hur man hanterar parallella historier som alla är lika betydelsebärande. Ett problem uppstår t ex i och med upptakten i kap 1 med en av berättelserna där huvudpersonen sedan får vänta med att framträda på nytt därför att de andra medverkande också måste få komma till tals. Personen i upptakt kap 1 får/kan sedan inte göra sig hörd förrän tio kapitel senare.
    Sven
  • Pia Lerigon • 11 maj 2017 20:44:03
    Det har du ju rätt i Pasi - vilken miss. Jag rättar Paolos namn omedelbart :)
  • Pasi • 11 maj 2017 20:23:33
    Han heter inte Pablo, utan Paolo. Du vet säkert vilket intryck fel i sådana basfakta kan ge. Se på mig - det var vad jag fastnade på, istället för de intressanta jämförelserna :)

Senaste inläggen

Senaste kommentarer

Bloggarkiv

Länkar

Etikettmoln