Il s'agit de l'application Windows nommée VLLM dont la dernière version peut être téléchargée sous le nom v0.2.1.post1sourcecode.zip. Il peut être exécuté en ligne chez le fournisseur d'hébergement gratuit OnWorks pour les postes de travail.
Téléchargez et exécutez gratuitement en ligne cette application nommée VLLM avec OnWorks.
Suivez ces instructions pour exécuter cette application :
- 1. Téléchargé cette application sur votre PC.
- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.
- 3. Téléchargez cette application dans ce gestionnaire de fichiers.
- 4. Démarrez n'importe quel émulateur en ligne OS OnWorks à partir de ce site Web, mais un meilleur émulateur en ligne Windows.
- 5. Depuis le système d'exploitation OnWorks Windows que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.
- 6. Téléchargez l'application et installez-la.
- 7. Téléchargez Wine depuis les dépôts de logiciels de vos distributions Linux. Une fois installé, vous pouvez ensuite double-cliquer sur l'application pour les exécuter avec Wine. Vous pouvez également essayer PlayOnLinux, une interface sophistiquée sur Wine qui vous aidera à installer des programmes et des jeux Windows populaires.
Wine est un moyen d'exécuter un logiciel Windows sur Linux, mais sans Windows requis. Wine est une couche de compatibilité Windows open source qui peut exécuter des programmes Windows directement sur n'importe quel bureau Linux. Essentiellement, Wine essaie de ré-implémenter suffisamment de Windows à partir de zéro pour qu'il puisse exécuter toutes ces applications Windows sans avoir réellement besoin de Windows.
CAPTURES D'ÉCRAN
Ad
VLLM
DESCRIPTION
vLLM est une bibliothèque rapide et facile à utiliser pour l'inférence et le service LLM. Service à haut débit avec divers algorithmes de décodage, notamment l'échantillonnage parallèle, la recherche de faisceaux, etc.
Fonctionnalités
- Débit de service de pointe
- Gestion efficace de la mémoire des clés d’attention et des valeurs avec PagedAttention
- Traitement par lots continu des demandes entrantes
- Noyaux CUDA optimisés
- Intégration transparente avec les modèles HuggingFace populaires
- Prise en charge du parallélisme tensoriel pour l'inférence distribuée
Langage de programmation
Python
Catégories
Il s'agit d'une application qui peut également être récupérée sur https://sourceforge.net/projects/vllm.mirror/. Il a été hébergé dans OnWorks afin de pouvoir être exécuté en ligne de la manière la plus simple possible à partir de l'un de nos systèmes d'exploitation gratuits.