Я тут чё то такой подумал, может и вправду научиться терпению и попользовать нейросетевые модели побольше, которые не помещаются в видеопамять, ну будет оно помедлененней, ну придется ждать что то типа 2 минутки ответа... не так страшно же?
0.5 токенов в секунду...
Ладно, хорошо, запомню, 20B самое большое о запуске чего можно думать (с самым большим квантованием)
Ладненько, 11-13B это не так уж и плохо, так ведь?
=> More informations about this toot | View the thread | More toots from WildPowerHammer@mastodon.ml
text/gemini
This content has been proxied by September (3851b).