QWQ-32B
Corrispondente a ragionamento R1 ma 20 volte più piccolo




Descrizione
QWQ-32B, del team Alibaba Qwen, è un nuovo LLM Open-Source 32B che raggiunge il ragionamento a livello di profondo-R1 tramite apprendimento in scala di rinforzo. Presenta una "modalità di pensiero" per compiti complessi.