Quel GPU pour LLM Local ?

Demande d'aide : c'est ici.
Répondre
Jackbot
Messages : 1
Inscription : 21 juil. 2023, 10:21
Status : Hors-ligne

Salut à tous

Un peu de contexte, j'ai un serveur sous debian pour gérer mes courriels, une instance Nextcloud, home assistant, Mediawiki, pihole et plein d'autres trucs utile. Maintenant j'aimerai ajouter un conteneur Docker pour disposer de mon LLM en local. Les objectifs sont multiples :
  • LLM pour m'aider à coder/configurer.
  • Configuration d'un assistant sur Home assistant.
  • tant qu'à faire avec whisper et piper (ou équivalent).
  • Faire interagir le LLM avec mon calendrier et mes notes Nextcloud
  • Faire interagir le LLM avec mon Wiki
  • Si déjà j'investis dans un GPU, autant pouvoir lui envoyer de temps en temps des rendus Blender à faire.
Ce que je vois c'est qu'il existe de nombreuses utilisation d'un LLM. Pour l'instant je teste ça sur mon ordinateur de bureau équipé d'une RTX 5070 12G avec open webui + ollama. Ce que j'ai pu constaté jusqu'à présent, c'est que les petits modèles que j'arrive à faire rentrer dans ma carte graphique (qwen3.5:9b par exemple) ne sont pas super efficaces, surtout en ce qui concerne l'utilisation des outils que l'on peut créer dans open webui et il semble impossible de lui faire utiliser plusieurs petits outils simples à la suite. À chaque fois j'ai du explicitement lui dire quel outil utiliser ensuite alors que c'était noté dans le prompt système ainsi que dans la description des outils. Est-ce que c'est moi qui m'y prends mal ou effectivement les modèles de cette taille ne sont pas efficaces pour ce genre de tâches ?

Dans tous les cas, j'aimerai que ce nouveau conteneur soit disponible tout le temps et pas juste quand mon ordinateur de bureau est allumé, c'est pourquoi j'aimerai trouver un bon GPU à mettre dans mon serveur pour faire tourner tout ça. J'ai commencé par cherché en occasion mais j'ai l'impression qu'il est impossible de trouver une RTX 3090 à moins de 800-900€. Mais mon avis est que pour ce prix là autant partir sur une carte neuve car on trouve la ASRock Intel Arc Pro B60 Creator 24GB pour environ 760€

J'ai vu qu'il existe LocalAI qui dispose d'image docker aussi bien pour Nvidia que pour Intel et AMD. Je ne vais donc pas me restreindre sur la marque du GPU.

J'aimerai donc avoir votre avis à la fois sur le modèle LLM ainsi que sur le GPU le plus adapté pour ce genre d'utilisation.

Merci d'avance
Avatar de l’utilisateur
piratebab
Site Admin
Site Admin
Messages : 6508
Inscription : 24 avr. 2016, 18:41
Localisation : sud ouest
Status : En ligne

Bonjour, ta config ressemble beaucoup à la mienne. J'utilise incus et podman pour les containers. Mon homeassistant est sur un RPI (tout comme zonzminder)
J'ai fait tourner piper et whisper via ollama directement sur le CPU de mon serveur, ça fonctionne, mais c'est lent. Mon serveur est un HP Proliant Gen7, donc le proc n'a pas les instructions optimisées pour l'IA.
J'ai récupéré un gen8, mais pas encore configuré.
Voici l'état de ma réflexion:
- il me faut un GPU, avec 16 GO me RAM pour charger les modèles sans étre gêné, mais comme tu l'a constaté, c'est 800, voie 1000 €
- il faut que ce soit compatible CUDA, donc Nvidia
- il existe ROCM pour faire la même chose avec AMD, mais peu de GPU sont compatibles (les plus chers!), et ce n'est à priori pas mature, donc je regarde pour du nvidia
- sur le serveur, il faut trouver un moyen pour que la carte soit vue par les containeurs linux (passthrough), faisable mais pas simple

Voila ou j'en suis de mes reflexions. Vu le prix de GPU, je met la priorité sur la config du gen8, ça devrait déja améliorer les choses.
Répondre