Новый проект nanochat от Андрея Карпатого

Андрей Карпатый, ML-инженер и экс-разработчик OpenAI, анонсировал новый проект под названием nanochat. Это открытая платформа для полного цикла обучения языковых моделей (LLM). Обучение модели потребует примерно 100 долларов при аренде облачных мощностей.

Nanochat разработан в рамках курса LLM101n от Eureka Labs и включает все необходимые компоненты для обучения модели, такие как токенизатор на Rust, система подкачки датасета FineWeb-EDU, а также скрипты для настройки, инференса и сбора метрик. Пользователи смогут взаимодействовать с готовой моделью через встроенный веб-интерфейс.

Для обучения потребуется инстанс с восемью видеокартами Nvidia H100, что займет около четырех часов. Средняя стоимость аренды — 24 доллара за час, что обосновывает общие затраты на обучение. Процесс запускается через скрипт speedrun.sh, а для активации веб-чата используется команда python -m scripts.chat_web.

Код проекта доступен на GitHub, где также можно найти все инструкции и необходимые файлы. Главная цель nanochat — создать компактный и удобный цикл обучения, доступный для модификаций и дальнейшего развития.