Amélioration des suggestions d'articles similaires via un script shell


[24/02/2020] - ~3mins - #hugo #script


En bas des articles j'ai mis (depuis un bon moment maintenant) un lien vers des articles similaires.

Ça marche pas trop mal car ça se base sur les tags.

Le souci c'est que c'est très manuel.

Et donc c'est toujours chiant de trouver les bons tags à mettre.

Du coup j'ai voulu me simplifier la vie et affiner un peu ces résultats.

Pour ça je conserve les tags comme actuellement parceque ça crée des pages de tags et tout, mais j'ai ajouté un système supplémentaire assez équivalent mais qui est invisible et ne créer pas de page supplémentaire.

Ça me permet d'ajouter des tags invisibles et donc d'y mettre des trucs pas forcément pertinent au premier regard.

Top_Words

Le principe est le suivant, je compte tous les mots afin de voir lesquels reviennent le plus dans un article.

Il y a de fortes chances que ça soit de potentiels tags.

Je fous ça dans le frontmatter et je demande à Hugo de les prendre en compte pour trouver les articles similaires.

Voyons ça de plus près.

Élaboration du dico des mots bateaux

Vous vous doutez que les mots qui reviennent le plus sont les mots "inintéressants".

D'ailleurs voilà le TOP10 des mots qui reviennent le plus sur mon blog.

| # | ocurences | mot |

|:-:|:----:|:-:|

| 1 | 8995 | de |

| 2 | 5496 | est |

| 3 | 4908 | le |

| 4 | 4672 | un |

| 5 | 4045 | et |

| 6 | 3719 | à |

| 7 | 3626 | la |

| 8 | 3287 | les |

| 9 | 3024 | pas |

| 10 | 2856 | d |

Pour créer ce top j'ai utilisé la commande suivante :

tail ~/www/content/*/*/index.md -n +12 | grep -E '\w+' -o | tr '[:upper:]' '[:lower:]' | sort | uniq -c | sort -g | less

Passionnant n'est-il pas ?

Bon globalement tous les mots de ce TOP10 (et en vrai même top 100 ou plus) sont inintéressants et n'apporte pas de contenu.

Création d'un dico personnalisé

tail ~/www/content/*/*/index.md -n +12 | grep -i -E '\w+' -o| sort | uniq -c | sort -g | tail -n 500 | awk '{print $2}' | sort > ~/www/top_words

On hésite pas à fureter dedans et virer les faux-positifs.

D'ailleurs probablement qu'à terme j'y ajouterai certains mots manuellement.

Script pour analyser les top_words d'un article

Ce script va donc utiliser le dico précédemment créé.

Il suffira de le lancer et hop il vous affichera un top des mots avec leur nombre d'ocurence.

Ensuite il donne la ptite ligne à copier/coller dans le frontmatter de l'article (flemme jusqu'au bout).

{{}}

! /bin/sh

tail "$1/index.md" -n +12 | grep -E '\w+' -o | tr '[:upper:]' '[:lower:]' | sort | uniq -c | sort -g | grep -f /home/lord/www/top_words -v -w | tail -n 10

printf "TopWords = ["

virgule=" "

for line in $(tail "$1/index.md" -n +12 | grep -E '\w+' -o | tr '[:upper:]' '[:lower:]' | sort | uniq -c | sort -g | grep -f /home/lord/www/top_words -v -w -i| tail -n 10 | awk '{print $2}')

do

IFS=""

printf "%s "%s"" $virgule $line

virgule=","

done

printf "]\n"

{{}}

Le script pourrait très probablement être amélioré mais pour un premier jet c'est amplement suffisant.

Adaptation de la config d'Hugo

Il suffit de modifier la config du site pour prendre en compte ce nouveau paramètre du frontmatter.

{{}}

[related]

includeNewer = true

[[related.indices]]

name = "categories"

weight = 20

[[related.indices]]

name = "TopWords"

weight = 21

{{}}

Et le tour est joué, notre nouvelle variable a plus de poids que le précédent critère.

Bon j'imagine que les experts dans le traitement du langage et les programmeurs vont bien se marrer en voyant le truc mais à mon niveau ça fait bien le taff.

Ça me fait une petite commande de plus à lancer lors de la publication.

Liens


=> 🏠 Retour à la home


[24/02/2020] - #hugo #script


=> [>> Suivant >>] ⏭ Goodnight Mommy | [<< Précédent <<] ⏮ Empire Of The Sun

Proxy Information
Original URL
gemini://lord.re/posts/191-extraction-keywords-blogposts/index.gmi
Status Code
Success (20)
Meta
text/gemini
Capsule Response Time
259.628844 milliseconds
Gemini-to-HTML Time
1.768153 milliseconds

This content has been proxied by September (ba2dc).