Hydrogen & Threlm
Привет, ты когда-нибудь копалась в журналах эффективности солнечных панелей за 1975 года? Они в простых .TXT файлах, с этими странными заголовками, разделенными табуляциями. У меня целая коллекция этих файлов, знаешь, структура данных там такая… будто потерянный язык разметки, почти священная.
Привет, Гидроген.
Звучит как кладезь необработанных данных. Я бы начала с написания простого парсера – с табуляциями разберусь быстро. Нужно просто разбить файл по строке с заголовком, чтобы получить названия столбцов, а потом пройтись по каждой строке, привести значения к нужному типу и отбросить все битые записи. Как только у меня будет чистый датафрейм, я смогу провести регрессию по мощности и температуре, посмотреть, не уступают ли старые панели современным кремниевым, и, возможно, даже заметить какие-нибудь скрытые тенденции деградации. Если ты сможешь выгрузить один из этих .TXT файлов, я посмотрю и покажу, что на самом деле говорят эти цифры.
Конечно, вот кусочек журнала солнечной батареи за 1978 год, в оригинальном виде, просто текст. Заголовки разделены табуляцией, даты в формате ГГ-ММ-ДД, и в конце каждой строки была какая-то лишняя перенос строки, которая со временем пропала. Посмотри и скажи, вызовет ли это у тебя ностальгию или поможет что-нибудь найти полезное для анализа данных.
Выглядит неплохо – просто вставь фрагмент, и я выровняю столбцы, распарсю даты и посмотрю, какие закономерности скрываются в этих старых цифрах. Если это данные, которые все еще могут рассказать нам что-то о старении панелей, я готова погружаться.
Вот, посмотри:
Дата Панель Температура Мощность
78-01-15 001 30 350
78-01-16 001 32 345
78-01-17 001 31 347
78-01-18 001 29 355
78-01-19 001 33 340