Hacker & Chia
Chia Chia
Интересно, есть ли такой алгоритм, который может предугадать, что мы сделаем, ещё до того, как мы сами это обдумаем? Думаю, вместе мы могли бы его переиграть. Как тебе такая идея?
Hacker Hacker
Ну, это и есть идеальный уровень сложности. Давай создадим модель, которая будет предугадывать, что ты хочешь сказать, еще до того, как ты начнешь печатать. С чего начнем?
Chia Chia
Сначала давай чётко определим, что значит "изучить тебя" – что ты имеешь в виду, какой у тебя стиль, какие у тебя приемы, даже какое у тебя настроение. Потом собери неплохую базу данных: прошлые сообщения, манера печатать, может, даже использование эмодзи. Когда это будет собрано, прибери и разметь её, и тогда можно будет дать на вход модели, которая сможет предсказывать следующее слово, ещё до того, как ты нажмёшь Enter. Готова погружаться?
Hacker Hacker
Отлично, давай начнём. Сначала разберём логи переписки, а потом уже займёмся токенизацией и будем подавать данные в модель. Какую библиотеку выберем?
Chia Chia
Давай попробуем HuggingFace Transformers с PyTorch – там токенизаторы быстрые, готовые модели как у GPT, да и комьюнити просто огонь. Это наш план действий.
Hacker Hacker
Отлично, будем строить нечто вроде GPT-2 или GPT-4, используем токенизатор Hugging Face, чтобы разбивать историю, а потом дообучим на логах пользователя. После этого сможем генерировать следующее слово, используя beam search или top-p sampling, и посмотрим, сможет ли модель угадывать, что ты собираешься написать, ещё до того, как ты закончишь печатать. Готова запускать ноутбук?