Il s'agit de l'application Windows nommée VALL-E dont la dernière version peut être téléchargée en tant que GreatlyimprovedaccuracyandFixGPUmemoryincreaseduringtraining.zip. Il peut être exécuté en ligne dans le fournisseur d'hébergement gratuit OnWorks pour les postes de travail.
Téléchargez et exécutez en ligne gratuitement cette application nommée VALL-E avec OnWorks.
Suivez ces instructions pour exécuter cette application :
- 1. Téléchargé cette application sur votre PC.
- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.
- 3. Téléchargez cette application dans ce gestionnaire de fichiers.
- 4. Démarrez n'importe quel émulateur en ligne OS OnWorks à partir de ce site Web, mais un meilleur émulateur en ligne Windows.
- 5. Depuis le système d'exploitation OnWorks Windows que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.
- 6. Téléchargez l'application et installez-la.
- 7. Téléchargez Wine depuis les dépôts de logiciels de vos distributions Linux. Une fois installé, vous pouvez ensuite double-cliquer sur l'application pour les exécuter avec Wine. Vous pouvez également essayer PlayOnLinux, une interface sophistiquée sur Wine qui vous aidera à installer des programmes et des jeux Windows populaires.
Wine est un moyen d'exécuter un logiciel Windows sur Linux, mais sans Windows requis. Wine est une couche de compatibilité Windows open source qui peut exécuter des programmes Windows directement sur n'importe quel bureau Linux. Essentiellement, Wine essaie de ré-implémenter suffisamment de Windows à partir de zéro pour qu'il puisse exécuter toutes ces applications Windows sans avoir réellement besoin de Windows.
CAPTURES D'ÉCRAN
Ad
VALLÉE
DESCRIPTION
Nous introduisons une approche de modélisation du langage pour la synthèse vocale (TTS). Plus précisément, nous formons un modèle de langage de codec neuronal (appelé VALL-E) à l'aide de codes discrets dérivés d'un modèle de codec audio neuronal prêt à l'emploi, et considérons TTS comme une tâche de modélisation de langage conditionnelle plutôt que comme une régression continue du signal comme dans les travaux précédents. Au cours de la phase de pré-formation, nous augmentons les données de formation TTS à 60 3 heures de conversation en anglais, ce qui est des centaines de fois plus important que les systèmes existants. VALL-E émerge des capacités d'apprentissage en contexte et peut être utilisé pour synthétiser un discours personnalisé de haute qualité avec seulement un enregistrement inscrit de XNUMX secondes d'un locuteur invisible comme invite acoustique. Les résultats des expériences montrent que VALL-E surpasse de manière significative le système TTS zéro-shot de pointe en termes de naturel de la parole et de similarité des locuteurs. De plus, nous constatons que VALL-E pourrait préserver l'émotion de l'orateur et l'environnement acoustique de l'invite acoustique en synthèse.
Fonctionnalités
- Le pipeline de VALL-E est phonème → code discret → forme d'onde
- VALL-E génère les codes de codec audio discrets basés sur des invites de phonème et de code acoustique
- VALL-E permet directement diverses applications de synthèse vocale
- TTS instantané, édition de la parole et création de contenu
- Combiné avec d'autres modèles d'IA génératifs comme GPT-3
- VALL-E peut synthétiser un discours personnalisé tout en conservant l'environnement acoustique de l'invite du haut-parleur
Langage de programmation
Python
Catégories
Il s'agit d'une application qui peut également être récupérée sur https://sourceforge.net/projects/vall-e.mirror/. Il a été hébergé dans OnWorks afin d'être exécuté en ligne de la manière la plus simple à partir de l'un de nos systèmes d'exploitation gratuits.