PJE : Analyse de comportement avec Twitter

TD/TP -- Construction d'un base de tweets, classification manuelle




Avertissement : Priviligiez le mode offline pour vos tests !

I. Construction d'une base de Tweets
 
Dans ce TP, nous allons construire une base de données avec les tweets récupérés grace à l'api. Pour cela, vous allez reprendre les fonctions et l'interface graphique du dernier TP et les compléter.

Les informations que nous souhaitons sauvegarder sont les suivantes :
  • L'id d'un tweet; 
  • L'utilisateur qui a émis le tweet; 
  • Le texte du tweet; 
  • La date de publication du tweet; 
  • La Requête utilisée pour récupérer le tweet.

--> Compléter vos requêtes java afin d'extraire les informations nécessaires.

Maintenant que les informations sont extraites, nous allons les sauvegarder sous format csv (plus simple pour la suite des TPs). Un fichier csv est tout simplement un fichier texte constitué de lignes, chaque ligne contient des champs séparés par des ";". Nous voulons:
  • Sauvegarder les tweets dans un même fichier afin de consituer une base. N'écrasez donc pas les anciens Tweets !
  • Éviter les doublons. Pour cela il va falloir vous appuyer sur les ids des tweets par exemple.

--> Dans l'interface graphique du dernier TP, rajouter une fonction qui permet de sauvegarder les différentes informations sous format CSV.


II. Annotation à la main (avec l'interface graphique)

Le but de notre PJE est de pouvoir classifier les tweets récupérés en fonction du sentiment qu'ils expriment.

Comme vous allez le voir dans la suite, avoir une base annotée au préalable est essentiel pour pouvoir annoter des nouveaux tweets de façon automatique. On va donc constituer notre propre base.

L'annotation des tweets, même à la main est des fois difficile. Par exemple, il n'est toujours pas possible de déterminer le sentiment exprimé dans un tweet sans comprendre le contexte. On va donc claissifier les tweets en 4 catégories de sentiments : -1, 0, 1, 2
  • -1 : non annoté
  • 0  : négatif
  • 1  : neutre
  • 2  : positif
--> En utilisant votre interface graphique, ajouter la possibilité de pouvoir annoter les tweets à la main. Vous pouvez par exemple utiliser des JCheckBox avec une JTable. Mais vous êtes libre de choisir la présentation qui vous convient.

--> Une fois vos tweets annotés, rajouter le champ catégorie du tweets (-1, 0, 1, 2) à votre fichier csv.