Il est possible d'utiliser les notebooks directement depuis google colab :
- Cloner le repo
git clone <url>
- Créer un environnement virtuel
virtualenv venv
./venv/bin/activate
-
Installer les dépendances
pip install -r requirements.txt
-
Télécharger le modèle de langue
fasttext
wget https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin \
-O data/lid.176.bin
(il est possible de télécharger le modèle en version compressé (ftz), modifier l'URL en conséquence)
Structure du projet :
extraction
├── .gitignore
├── data
│ ├── test.txt
│ ├── test_output.txt
│ ├── train.txt
│ └── ...
├── extraction
│ ├── __main__.py
│ ├── preprocessing.py
│ └── training.py
├── mypy.ini
├── notebooks
│ ├── bert.ipynb
│ └── nnlm.ipynb
├── README.md (ce document)
├── rapport.md
├── requirements.txt
└── venv
└── ...
Les notebooks sont le principal outil que l'on utilise pour effectuer nos essais et pour présenter nos resultats.
Les notebooks bert.ipynb
et nnlm.ipynb
sont les notebooks à executer pour reproduire nos résultats. Ils contiennent de manière synthétique les différentes étapes de notre chaine de traitement.
Le module extraction regroupe les scripts python pouvant être utilisés sous forme de module. Il est surtout utilisé pour le script preprocessing.py
. training.py
n'est aujourd'hui pas arrivé à un niveau de maturation suffisant, contrairement aux notebooks nnlm et bert.