whichllm 사용법, 내 GPU에 맞는 최고의 로컬 LLM, 한 줄로 찾기 (설치부터 실사용까지)

로컬 LLM을 돌려보려고 모델을 고를 때마다 막히는 게 있습니다. "내 그래픽카드 VRAM에 들어가는 모델이 뭐지?"까지는 검색으로 알아내도, 그중에서 실제로 제일 성능 좋은 게 뭔지는 답이 안 나옵니다. 결국 제일 큰 거 받았다가 너무 느려서 지우고, 다시 작은 거 받는 삽질을 반복하게 됩니다.

whichllm은 딱 이 지점을 해결하는 CLI입니다. GPU/CPU/RAM을 자동 감지해서, 그 사양에 들어가는 모델 중 실제 벤치마크 점수가 가장 높은 것을 순위로 뽑아줍니다. "돌어가냐"가 아니라 "돌어가는 것 중 제일 좋은 게 뭐냐"를 LiveBench·Aider·Chatbot Arena 같은 실측 점수로 골라준다는 게 핵심입니다. 모델 목록은 HuggingFace API에서 실시간으로 가져옵니다.

GitHub 주소는 github.com/Andyyyy64/whichllm 입니다. MIT 라이선스에 Python 3.11+만 있으면 윈도우·맥·리눅스 어디서나 돌아갑니다.

GitHub - Andyyyy64/whichllm: Find the local LLM that actually runs and performs best on your hardware. Ranked by real, recency-a

Find the local LLM that actually runs and performs best on your hardware. Ranked by real, recency-aware benchmarks, not parameter count. One command, run it instantly. - Andyyyy64/whichllm

github.com

설치 방법

whichllm은 uv의 uvx로 영구 설치 없이 일회성 실행이 가능합니다. 그래서 먼저 uv부터 깔면 됩니다. 아래는 실제로 제가 이 머신(WSL)에서 설치하고 실행한 화면입니다.

첫 실행은 의존성 25개를 받느라 몇 초~십몇 초 걸리고, 이후엔 캐시돼서 빠릅니다. 자주 쓸 거면 uv tool install whichllm 또는 pip install whichllm으로 박아두면 됩니다.

먼저 내 하드웨어부터 확인

WSL이라 GPU 감지가 안 될까 걱정했는데, GPU 패스스루만 되어 있으면 그대로 잘 잡힙니다. VRAM, 메모리 대역폭(BW), CPU 명령어셋(AVX2/AVX-512), RAM까지 인식합니다. 속도 추정에 대역폭을 쓰기 때문에 이 정보가 추천의 근거가 됩니다.

내 PC에 맞는 모델 순위 뽑기

메인 기능입니다. 인자 없이 그냥 실행하면 됩니다. 6GB짜리 RTX 2060 기준으로 Qwen3-8B Q4_K_M (score 65.5)이 1위로 나왔습니다. 단순히 "8B가 6GB에 들어가냐"가 아니라, 같은 VRAM에 들어가는 4B 모델들보다 벤치마크 점수가 높아서 1위로 올라온 겁니다.

표 아래의 Top pick confidence와 Benchmark reference도 눈여겨볼 만합니다. 점수가 직접 측정된 건지(direct), 2위와의 격차는 얼마인지, 벤치마크 스냅샷이 언제 건지까지 밝혀줘서 추천을 그냥 믿으라고 하지 않고 근거를 보여줍니다.

용도별로 거르기 (coding 프로필)

코딩용 모델만 따로 보고 싶으면 프로필을 줍니다 (general / coding / vision / math) 여기서 똑똑한 점 하나, 1위로 뜬 점수 높은 MoE 모델에 "레이어의 81%가 CPU RAM으로 오프로드된다"는 경고를 같이 띄워줍니다. 점수만 보고 받았다가 느려터지는 함정을 미리 알려주는 셈입니다.

그 밖에 --top 20, --quant Q4_K_M, --min-speed 30, --json, --refresh 같은 옵션이 있습니다.

이 모델 돌리려면 GPU가 뭐가 필요할까

반대로, 특정 모델을 정해두고 "이거 돌리려면 카드 뭐가 필요하냐"를 역으로 알려줍니다. 양자화별 필요 VRAM과 품질 손실(%), 주요 GPU에서의 적합 여부·예상 속도까지 한 번에 보여줘서 구매 계획 세울 때 유용합니다. 70B는 RTX 4090(24GB)으로도 부분 오프로드라 6.3 t/s밖에 안 나온다는 걸 사기 전에 알 수 있습니다.

비슷하게 whichllm upgrade "RTX 4090" "RTX 5090" "H100"으로 지금 PC와 업그레이드 후보 GPU들을 비교할 수도 있습니다.

바로 실행하거나 코드로 받기

모델을 정했으면 whichllm run "qwen 2.5 1.5b gguf"로 다운로드 + 채팅까지 한 방에 갑니다. 코드로 직접 쓰고 싶으면 snippet이 포맷(GGUF는 llama-cpp-python, AWQ/GPTQ·FP16은 transformers)에 맞는 복붙용 파이썬 코드를 내줍니다.

결국 whichllm이 잘하는 건 "내 VRAM에 뭐가 돌어가냐"가 아니라 "돌어가는 것 중 진짜 제일 좋은 게 뭐냐"를 실측 벤치마크로 짚어줍니다. 오래된 리더보드 점수는 알아서 깎고 점수 출처와 신뢰도까지 같이 보여주니, 추천을 그냥 믿으라고 떠넘기지도 않습니다. 설치도 uvx whichllm@latest 한 줄이라 부담이 없으니, 로컬 LLM 한 번 굴려볼 생각이 있다면 가볍게 돌려보고 결정해도 늦지 않습니다.

저작자표시 비영리 변경금지 (새창열림)