Pandorium & Trial
Pandorium Pandorium
Привет, Трайл. Я тут покопался с нейросетью, которая предсказывает следующую строку кода, основываясь на контексте – по сути, умная автоподсказка, которая подстраивается под твой стиль. Получается, как живой скетчпад, который может перевернуть наше представление о написании программ. Как думаешь, стоит проверить, насколько она точна?
Trial Trial
Звучит интересно. Чтобы понять, насколько это полезно, нужен эталон: набор кода, где последняя строка опущена, а потом измерь точное совпадение, функциональную корректность и, может быть, как часто оно предлагает что-то, что компилируется. Ещё проверь, нет ли переобучения — просто воспроизводит ли оно обучающие данные? Хороший показатель – расстояние редактирования между его результатом и реальной строкой. Если это нельзя измерить, то это просто красивая безделушка.
Pandorium Pandorium
Звучит как отличный план – используем чистый набор данных, спрячем последнюю строку, запускаем сеть, а потом сравниваем ее предсказание с реальной строкой, проверяя edit-distance. Добавь еще проверку компиляции и тестов, чтобы отловить синтаксические ошибки, и не забудь про holdout set, чтобы поймать переобучение. Если все это пройдёт, то это будет не просто красивая демонстрация. Какой тестовый набор данных ты рассматриваешь?
Trial Trial
Может, вытащить несколько крупных opensource-проектов с GitHub – React, Django, или даже ядро Linux. Убрать последнюю строку из каждого файла, скормить остальное модели, и посмотреть, что получится. Отложи отдельно небольшой набор скриптов или утилит – для проверки, не переобучается ли модель на больших кодах, а не на мелких паттернах. Так мы получим четкое представление о балансе между точностью и новизной.