Учёные из Института астрофизики имени Лейбница в Потсдаме (AIP) и Института космических наук Барселонского университета (ICCUB) представили новую модель машинного обучения для эффективной обработки данных по 217 миллионам звёзд, наблюдавшихся в ходе миссии Gaia. Этот подход открывает новые возможности для картирования характеристик звёзд и улучшения понимания структуры Млечного Пути.
Третий выпуск данных космической миссии Gaia Европейского космического агентства предоставил астрономам доступ к улучшенным измерениям 1,8 миллиарда звёзд, что представляет собой колоссальный объём данных для исследования Млечного Пути. Однако эффективный анализ такого большого набора данных является серьёзной проблемой. В исследовании учёные изучали использование машинного обучения для оценки ключевых свойств звёзд с использованием спектрофотометрических данных, предоставленных обсерваторией Gaia.
Модель была обучена на данных о 8 миллионах звёзд и достигла надёжных прогнозов с небольшими неопределённостями. Работа опубликована в журнале Astronomy & Astrophysics.
«Базовая технология, называемая деревьями с экстремальным градиентным усилением, позволяет с беспрецедентной эффективностью оценивать точные характеристики звёзд, такие как температура, химический состав и затенение межзвёздной пылью. Разработанная модель машинного обучения SHBoost выполняет свои задачи, включая обучение модели и прогнозирование, в течение четырёх часов на одном графическом процессоре. Этот процесс ранее требовал двух недель и 3000 высокопроизводительных процессоров», — говорит Арман Халатян (Arman Khalatyan) из AIP и главный автор исследования.
Этот метод машинного обучения значительно сокращает время вычислений, потребление энергии и выбросы CO2. Это первый случай успешного применения такого метода к звёздам всех типов одновременно.
Крупномасштабная карта (длина стороны 330 000 световых лет) плотности 217 миллионов звёзд из выборки Gaia DR3 XP.
Источник: F. Anders, Universitat de Barcelona
Модель обучается на высококачественных спектроскопических данных из небольших обзоров, а затем применяет эти «знания» к третьему большому выпуску данных Gaia (DR3), извлекая ключевые параметры, используя только фотометрические и астрометрические данные, а также спектры Gaia XP низкого разрешения.
«Высокое качество результатов снижает необходимость в дополнительных ресурсоёмких спектроскопических наблюдениях при поиске хороших кандидатов для дальнейших исследований, таких как звёзды с низким или высоким содержанием редких металлов, имеющие ключевое значение для понимания самых ранних фаз формирования Млечного Пути», — говорит Кристина Кьяппини из AIP.
Этот метод оказывается решающим для подготовки будущих наблюдений с использованием многообъектной спектроскопии, таких как 4MIDABLE-LR — крупномасштабное исследование Галактического диска и балджа, которое станет частью проекта 4MOST в Европейской южной обсерватории (ESO) в Чили.
«Новый подход предоставляет обширные карты общего химического состава Млечного Пути, подтверждающие распределение молодых и старых звёзд. Данные показывают концентрацию богатых металлами звёзд во внутренних областях галактики, включая перемычку и балдж, с огромной статистической мощностью», — добавляет Фридрих Андерс из ICCUB.
Команда также использовала модель для картирования молодых, массивных горячих звёзд по всей галактике, выделяя далёкие, плохо изученные регионы, в которых формируются звёзды. Данные также показывают, что во Млечном Пути существует ряд «пустот», — областей, в которых находится очень мало молодых звёзд. Кроме того, данные показывают, где трёхмерное распределение межзвёздной пыли всё ещё плохо решено.
Поскольку Gaia продолжает собирать данные, способность моделей машинного обучения быстро и устойчиво обрабатывать огромные наборы данных делает их важнейшим инструментом для будущих астрономических исследований. Успех подхода демонстрирует потенциал машинного обучения для преобразования анализа больших данных в астрономии и других научных областях, одновременно способствуя более устойчивым методам исследований.