-
Notifications
You must be signed in to change notification settings - Fork 24
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Augmenter le corpus de son avec de nouveaux jeux de données #91
Comments
J'ai une question particulière à cet égard : J'ai testé deepspeech sur des commandes vocales avec du vocabulaire technique du genre lancer un terminal, connecter, exécuter, apache, ssh, ... avec des résultats évidemment peu concluants. Je crains que des corpus trop littéraires ne soient pas les plus adaptés pour des usages quotidien de la société technique moderne, particulièrement pour commander vocalement un OS :) Ce ne sont pas des termes très usités mais je souhaiterais savoir si dans une certaine mesure des "collections" particulières/thématiques pourraient être créées et alimentées directement depuis https://commonvoice.mozilla.org/ |
C'est déjà le cas avec la première campagne qui a eu lieu cette année de mots clefs d'activation. La seconde approche, pour de l la commande spécifique, c'est de construire un scorer spécifique : https://deepspeech.readthedocs.io/en/master/Scorer.html?highlight=language%20model#building-your-own-scorer |
Je ne parle pas d'un mot clef d'activation, mais de deepspeech en tâche de fond décodant aussi aisément du français littéraire que des commandes vocales. À la Admettons que je construise mon vocabulaire avec quelques centaines de commandes (au moins simple, du genre ... comment procéder ensuite pour l'enregistrement vocal ?
|
J'ai bien compris, et ma remarque tient : on a pas mal expérimenté sur ce type d'usage, modèle générique (anglais ou français par ex), et scorer "dédié" avec des commandes. Ça marche vraiment pas mal, tu devrais commencer par essayer ça, 99.99% des cas d'utilisation où les gens voulaient comme toi faire des enregistrements dédiés ont été correctements résolus avec le modèle générique et un scorer spécifique. |
Ok. Puisque je ne suis pas être le premier (francophone) à souhaiter utiliser mon shell (et environement de bureau) par commandes vocales, y a-t-il des projets/références dans le domaine, basées sur deepspeech (pour le TTS) ? Quel serait le meilleur endroit pour de telles discussions ? Je me suis fait ce dataset.txt:
Puis:
J'ai bien réussi à passer outre avec
|
Discourse, en anglais, y'a pas mal de ressources déjà: https://discourse.mozilla.org/c/deepspeech/247
dans ce cas oui
Créer le scorer se fait en quelques minutes, tu perdras moins de temps à le faire et à essayer. Pour des commandes comme ça, j'avais eu étonnamment de bons résultats quand j'ai fait des essais. Le scorer est là pour ré-équilibrer la partie acoustique, si celui-ci ne contient que tes commandes, du coup une prononciation approximative "suffira". Collecter des données améliorera forcément les résultats, mais c'est un processus beaucoup plus complexe. @drzraf Par contre, la discussion dérive énormément de l'objet d'origine de cette issue, donc ça serait bien de continuer ailleurs, que ce soit sur le forum anglophone ou francophone. |
Je reviens vers le sujet:
Pour référence: common-voice/common-voice#1191 (comment) |
Il faut réaliser les importeurs pour ces jeux de données. Je vois Gallica, j'avais regardé y'a quelques années déjà, et c'était pas exploitable réellement :
@drzraf Si c'est uniquement pour rajouter du texte brut à lire sur le site :
|
C'est un peu le même soucis pour tout le monde. Perso j'essaie de profiter des vacances que j'ai enfin pu prendre pour déconecter complètement, donc ne prends pas mal si je ne réponds pas rapidement. Ne pas oublier que travailler sur un alignement ça va nécessiter beaucoup de taff, tu peux peut-être utiliser http://github.com/mozilla/DSAlign (j'ai jamais trop pris le temps de le faire) avec le dernier modèle releasé : il faut vraiment que les jeux de données que tu peux obtenir soient de taille intéressante (plusieurs centaines d'heures) pour que ce soit """rentable""" |
No description provided.
The text was updated successfully, but these errors were encountered: