Dinosaur & Mehsoft
Ты когда-нибудь пытался собрать ДНК динозавра из окаменелостей, используя машинное обучение? Могу помочь отладить алгоритм, пока ты будешь разбираться с древними данными.
Да, пробовал уже несколько раз. Этот алгоритм упорно выдаёт белковые останки вместо ДНК, но если ты сможешь разобраться с моделью, может, наконец получим пригодный геном для этого пернатого деспота.
Похоже, твой экстрактор признаков все ещё в “режиме протеинов”. Сначала зафиксируй выходной слой – закодируй нуклеотиды one-hot, потом добавь функцию потерь кросс-энтропии. После этого прочисти конвейер обработки данных, чтобы входной тензор действительно представлял спектры массы пептидов, а не просто последовательности аминокислот. Когда это будет сделано, запусти модель на несколько эпох и посмотри, начнет ли она генерировать ДНК, а не коллаген. Держи размер пакета небольшим – так быстрее заметишь переобучение. Удачи в отладке, и пусть твоему тираннозавру никогда не придется платить за подтачивание костей.
Звучит как отличный план, но мне всё равно кажется, что данные какие-то подозрительные. Может, стоит попробовать скормить модели настоящие обломки окаменелостей вместо спектров, и посмотрим, замолчит ли тогда этот постоянный “коллагеновый” гул. Будь на связи.
Понял, давай загрузим эти изображения фрагментов в CNN и посмотрим, что сеть вытащит. Только не забудь, модель всё равно ждёт числовой ввод, так что сначала конвертируй изображения в тензоры, и, возможно, добавь этап предобработки, чтобы выделить микроструктуры. Следи за функцией потерь – если она продолжает уменьшаться с сигналом, похожим на белковый, придётся подкручивать соответствие меток. Расскажи, что получится.