Gérer les flux d’actualités avec Python

15 octobre 2019

Cet article intègre les données d’un échantillon limité de couverture de journaux avec les tendances de Google Search pour modéliser les interactions entre les deux. Dans ces exemples, l’analyse préliminaire indique que la couverture d’informations est utile pour prévoir les tendances de la recherche, mais des résultats faibles et mitigés dans l’autre sens. Ces exemples ont été sélectionnés pour être réalisés avec un temps et des ressources limités dans un article de blog, mais tout est suffisamment général pour que vous puissiez échanger vos propres sujets ou données et que cela devrait être suffisant pour vous permettre de démarrer. Il s’agit du troisième article d’une série d’articles de blog présentant des informations sur la modélisation avec Python. Le premier article de cette série a examiné la nature de la série chronologique et la possibilité de modéliser les interactions au sein d’un support. Le second post portait sur la couverture de quelques publications et sur des thèmes permettant de prévoir la couverture avec différentes méthodes. Chargement des articles Comme précédemment, tout le code nécessaire aux modèles est fourni dans cet article. Il est formaté pour être copié et collé dans un fichier Jupyter Notebook. Le code va acquérir les données de l’article, mais vous voudrez suivre les instructions et un lien pour télécharger les données de tendance de Google Search ou les télécharger vous-même si vous les connaissez bien. Nous allons commencer par extraire 60 jours d’articles de GDELT en utilisant un package Python (https://www.gdeltproject.org/data.html#rawdatafiles). Ces articles sont étiquetés avec des sujets, des personnalités et des lieux. Cela vérifie si les fichiers sont déjà téléchargés et, dans le cas contraire, les télécharge et les formate dans un cadre de données pandas afin que nous puissions manipuler la série. Nous allons maintenant examiner le modèle SARIMA avec des paramètres tels que ceux que nous avions observés la dernière fois. Dans le dernier message, nous avons utilisé l’erreur quadratique moyenne pour évaluer la précision, mais cette fois-ci, nous utiliserons l’erreur en pourcentage absolu moyen (MAPE). Cela nous permet de normaliser les erreurs sur plusieurs séries temporelles de valeurs différentes. Nous garderons trace des valeurs MAPE dans le cadre de données mape_df pour pouvoir comparer les résultats. Le premier modèle que nous testons utilisera à la fois la couverture d’autres pays dans la publication et la couverture de ce pays dans une autre publication pour aller contre comme ce qui a été fait précédemment pour s’assurer que tout fonctionne à nouveau.