olha, temos algo interessante aqui: llama.cpp rodando local, a partir das orientações em https://medium.com/@manuelescobar-dev/achieve-state-of-the-art-llm-inference-llama-3-with-llama-cpp-c919eaeaac24.
o LLM, tal como veio, é fp16 e fica bem lentinho rodando em i5 7gen @ 2.50GHz com 24GB de RAM. com a sugestão de quantização para 4-bit, a interação de prompt não é instantânea, mas fica bem aceitável. e veja, sem GPU!
gosto das possibilidades que se abrem:
1. rodar no meu hardware, não precisar de internet;
2. os dados ficarem comigo;
3. otimizar o modelo para meus casos.
um uso imediato que tenho é para classificação de texto (o projeto de campanhas de financiamento coletivo de HQ)