Téléchargez le modèle :
Par exemple, nous utiliserons le modèle OpenChat 3.5, qui est celui utilisé sur l'instance de démonstration. Il existe de nombreux modèles au choix.
Rendez-vous sur TheBloke/openchat_3.5-GGUF et téléchargez l'un des modèles, comme openchat_3.5.Q5_K_M.gguf. Placez ce fichier dans le répertoire ./models.
Compilez le serveur :
make llama-server
Lancez le serveur :
Consultez la documentation llama.cpp pour plus d'informations sur les options du serveur. Ou exécutez ./server --help.