L’informazione accurata sul contenuto di umidità del suolo superficiale (SSM) su scala globale in diverse condizioni climatiche è importante per applicazioni idrologiche e climatologiche. L’integrazione sistematica basata su machine learning (ML) di misurazioni idrologiche in situ, dati ambientali e climatici complessi e osservazioni satellitari facilita la generazione dei migliori prodotti dati per monitorare e analizzare gli scambi di acqua, energia e carbonio nel sistema Terra con una risoluzione spazio-temporale adeguata. Questo studio investiga la stima del SSM giornaliero utilizzando otto algoritmi di ML ottimizzati e dieci modelli di ensemble (costruiti mediante tecniche di aggregazione di bootstrap del modello e con validazione incrociata a cinque fold). Le implementazioni algoritmiche sono state addestrate e testate utilizzando i dati della rete internazionale di umidità del suolo (ISMN) raccolti da 1722 stazioni distribuite in tutto il mondo. I risultati hanno mostrato che il regressore dei vicini più prossimi (KNR) ha ottenuto le migliori prestazioni sul set “test_random”, mentre il regressore a foreste casuali (RFR) ha ottenuto le migliori prestazioni sui set “test_temporal” e “test_independent-stations”. È stata condotta una valutazione indipendente su nuove stazioni in diverse zone climatiche. Per gli algoritmi di ML ottimizzati, le RMSE mediane erano inferiori a 0,1 cm3/cm3. GradientBoosting (GB), Multi-layer Perceptron Regressor (MLPR), Stochastic Gradient Descent Regressor (SGDR) e Random Forest Regressor (RFR) hanno ottenuto un punteggio r mediano superiore a 0,6 in tredici zone climatiche. Le prestazioni dei modelli di ensemble sono migliorate significativamente con un valore mediano di RMSE inferiore a 0,075 cm3/cm3 per tutte le zone climatiche. Tutti i regressori di voto hanno ottenuto punteggi r superiori a 0,6 in tredici zone climatiche, tranne BSh e BWh a causa della distribuzione sparuta delle stazioni di addestramento. La valutazione metrica ha mostrato che i modelli di ensemble possono migliorare le prestazioni degli algoritmi ML singoli e ottenere risultati più stabili. Sulla base dei risultati calcolati per tre diversi set di test, il modello di ensemble con KNR, RFR e XB ha ottenuto le migliori prestazioni. Nel complesso, la nostra indagine mostra che gli algoritmi di machine learning di ensemble hanno una maggiore capacità di prevedere il SSM rispetto agli algoritmi di base o ottimizzati di ML e indica la loro enorme potenziale applicabilità nella stima dei bilanci del ciclo dell’acqua, nella gestione dell’irrigazione e nella previsione dei rendimenti delle colture.
How to cite. Han, Q., Zeng, Y., Zhang, L., Cira, C.-I., Prikaziuk, E., Duan, T., Wang, C., Szabó, B., Manfreda, S., Zhuang, R., and Su, B.: Ensemble of optimised machine learning algorithms for predicting surface soil moisture content at global scale, Geosci. Model Dev. Discuss. [preprint], https://doi.org/10.5194/gmd-2023-83, in review, 2023. [pdf]