Выход HebrewGPT отложен на неопределённый срок
Выход большой языковой модели HebrewGPT откладывается на неопределённый срок. Об этом сообщил автор проекта Ям Пелег. Причина тому — известные события, начавшиеся в эту субботу.
Ям Пелег, основатель и глава фирмы алгоритмической торговли Deep Trading, представляется как учёный и предприниматель. Пелег окончил Открытый университет Израиля, вуз с режимом дистанционного обучения.
В эту пятницу, 6 октября, Ям объявил о продукте HebrewGPT. Как легко догадаться по названию, данная большая языковая модель (БЯМ) заточена для иврита и английского языка.
Пелег не тренировал новую БЯМ с нуля — это ещё один результат fine tuning на Llama. В мире ИИ под дообучением/тонкой настройкой понимают обучение уже обученной нейросети на новых данных. В последние месяцы среди энтузиастов машинного обучения стало популярным файнтюнить какую-нибудь открытую БЯМ на своих видеокартах. На странице рейтинга сервиса HuggingFace сейчас уже сотни позиций.
18 июля запрещённая в России экстремистская организация Meta выпустила Llama 2, второе поколение БЯМ Llama. Однако проект Пелега использует в качестве основы первую версию Llama. Работы над HebrewGPT начались три месяца назад, когда Llama 2 ещё не вышла.
Эти месяцы были потрачены на обучение на 300 млрд токенов. Как похвастался исследователь, это самое крупное дообучение Lllama — по крайней мере, по его собственным сведениям.
БЯМ HebrewGPT была заявлена как открытая, open source. Представить её Ям обещал в понедельник, 9 октября, в 17:00 по часовому поясу Израиля в Тель-Авиве в офисе акселератора стартапов AWS компании Amazon.
На презентации Ям собирался рассказать про:
- Перевод предварительно обученных (pre-trained) моделей на новые языки и его первые шесть попыток это сделать.
- Недостатки подхода continued pre-training.
- Методы работы при недостатке доступных данных.
- Сбор больших объёмов данных для получения нужного покрытия по широким областям знаний.
- Исследования применений БЯМ для общей публики.
- Обучение на текущей компьютерной инфраструктуре.
В другом твите Пелег радовался, как его детище проявляло вполне обычные тенденции нейросетей к обобщению. Если запросить эту БЯМ программный код на иврите, то на иврите же она комментирует код, рассказал Ям.
HebrewGPT — внешне рядовой проект по дообучению, которых уже много в сообществе. Но вряд ли до этого релизу нейросети мешали форс-мажорные события мира офлайна, к тому же на следующий день после объявления о проекте.
Мероприятие с презентацией HebrewGPT отложено на неопределённый срок. О желании просто выложить свою модель без презентации (а-ля Mistral) Ям Пелег не сообщает.