Truth discovery

Nell'integrazione dei dati, la truth discovery (letteralmente "definizione della verità") è il processo di selezione del valore di verità di un determinato oggetto quando sorgenti di dati diverse forniscono informazioni contrastanti su di esso.

Diversi algoritmi sono stati proposti per risolvere questo problema. Il metodo più semplice è basato sulla selezione del valore più popolare come valore di verità, altri metodi più sofisticati danno una stima dell'attendibilità delle varie sorgenti di dati allo scopo di ottenere un risultato più accurato.[1]

I problemi di truth discovery possono essere suddivisi in due sottoclassi: single-truth discovery e multi-truth discovery. Nel primo caso ad ogni oggetto è associato un solo valore di verità (ad esempio il compleanno di una persona, o la capitale di un paese). Mentre nel secondo caso ad ogni oggetto sono associati più valori di verità (ad esempio il cast di un film o gli autori di un libro).[2][3]

In genere, la fase di truth discovery è l'ultimo passo da svolgere durante l'integrazione dei dati, quando gli schemi di diverse sorgenti di dati sono stati unificati e i record che si riferiscono allo stesso oggetto sono stati identificati.[4]

  1. ^ (EN) Yaliang Li, Jing Gao, Chuishi Meng, Qi Li, Lu Su, Bo Zhao, Wei Fan e Jiawei Han, A Survey on Truth Discovery, in ACM SIGKDD Explorations Newsletter, vol. 17, n. 2, 25 febbraio 2016, pp. 1-16, DOI:10.1145/2897350.2897352.
  2. ^ (EN) Xianzhi Wang, Quan Z. Sheng, Xiu Susie Fang, Lina Yao, Xiaofei Xu e Xue Li, An Integrated Bayesian Approach for Effective Multi-Truth Discovery, in Proceedings of the 24th ACM International on Conference on Information and Knowledge Management - CIKM '15, Melbourne, Australia, ACM Press, 2015, pp. 493-502, DOI:10.1145/2806416.2806443, ISBN 978-1-4503-3794-6.
  3. ^ Xueling Lin e Lei Chen, Domain-aware Multi-truth Discovery from Conflicting Sources, in VLDB Endowment, vol. 11, 2018, pp. 635--647, DOI:10.1145/3187009.3177739.
  4. ^ (EN) Xin Luna Dong e Divesh Srivastava, Big Data Integration, in Synthesis Lectures on Data Management, vol. 7, n. 1, 15 febbraio 2015, pp. 1-198, DOI:10.2200/S00578ED1V01Y201404DTM040, ISSN 2153-5418 (WC · ACNP).

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search