Technische Universität Berlin

Seminar, 2 SWS

Privatdozent Dr. Peter Geibel (TU Berlin, Fak. IV -- Elektrotechnik und Informatik)

Das Seminar ist geeignet für Master-, (fortgeschrittene) Bachelor- und Diplom-Studierende der Informatik, TI, Mathematik und von verwandten Fächern:

  • Informatik Master/Bachelor: 3 Leistungspunkte (Modul "MINF-IS-PM/SE")
  • Informatik-Diplom: Studiengebiet KI
  • Gff. andere Studiengänge (bitte mit Prüfungsamt klären)

Achtung! Das Seminar entfällt im Wintersemester 2014/2015

In Unternehmen, Forschungsprojekten, Verwaltungen oder im Internet fallen heute große Datenmengen an, die mit Hilfe von Verfahren des Data Minings (DM) auf nützliche Muster und Regeln hin untersucht werden können. Hierbei kommen Verfahren der Statistik, des maschinellen Lernens und der Neuroinformatik zum Einsatz. Typische Beispiele sind die Warenkorbanalyse (Cross- und Upselling, z.B. bei Amazon), die Erkennung von Kreditkartenbetrug, die Analyse von Kundenverhalten (sog. Churn Analysis), sowie Cluster-und Prädiktionsverfahren für die Bioinformatik und Medizin.

Scherpunkt des diesjährigen Seminars sind medizinische Anwendungen von Data-Mining-Algorithmen.

Unter Text Mining versteht man die Anwendung von DM-Verfahren auf textuelle Daten wie E-Mails und HTML-Seiten (z.B. zur Spamerkennung). Während klassische DM-Verfahren eher datenbank- bzw. tabellenorientiert arbeiten, werden bei Verfahren des Text und Web Minings völlig neue Aspekte wichtig, wie z.B. die linguistische Analyse von Textdaten (Semantic Web, Ontologien, Web Opinion Mining), die Einbeziehung von Verlinkung und Vernetzung (PageRank, Netzwerkanalyse im Web 2.0), die Analyse von Nutzerverhalten (Click Streams), und eine weitrechende Multimedialität.

Das Seminar soll einen Überblick über die wichtigsten Themen an Hand von Forschungs- und Übersichtsarbeiten der letzen vier Jahre zu geben. Voraussetzungen für das Seminar sind mathmatische Kenntnisse wie Grundlagen der Wahrscheinlichkeitsrechnung (bedingte Wahrscheinlichkeiten und Erwartungswerte).

 

  1. Assoziationsregeln
    • Chaves, R., et al. "Efficient mining of association rules for the early diagnosis of Alzheimer's disease." Physics in medicine and biology 56.18 (2011)
    • Nikfarjam, Azadeh, and Graciela H. Gonzalez. "Pattern mining for extraction of mentions of adverse drug reactions from user comments." AMIA Annual Symposium Proceedings. Vol. 2011. American Medical Informatics Association, 2011
  2. Decision Trees
    • Kajungu, Dan K., et al. "Using classification tree modelling to investigate drug prescription practices at health facilities in rural Tanzania." Malar J 11.1 (2012):
  3. Naive Bayes
    • Sebastiani, Paola, Jenny X. Sun, and Nadia Solovieff. "Naïve Bayesian classifier and genetic risk score for genetic risk prediction of a categorical trait: not so different after all!." (2012).
  4. Unsupervised Learning
    • Li, Bing Nan, et al. "Integrating spatial fuzzy clustering with level set methods for automated medical image segmentation." Computers in Biology and Medicine 41.1 (2011): 1-10.
  5. Kernel-Verfahren
    • Caicedo, Juan C., et al. "Combining visual features and text data for medical image retrieval using latent semantic kernels." Proceedings of the international conference on Multimedia information retrieval. ACM, 2010.
  6. Information Extraction
    • Xu, Hua, et al. "MedEx: a medication information extraction system for clinical narratives." Journal of the American Medical Informatics Association 17.1 (2010): 19-24.
    • Uzuner, Özlem, Imre Solti, and Eithon Cadag. "Extracting medication information from clinical text." Journal of the American Medical Informatics Association 17.5 (2010): 514-518
  7. Literature Mining
    • Shetty, Kanaka D., and Siddhartha R. Dalal. "Using information mining of the medical literature to improve drug safety." Journal of the American Medical Informatics Association 18.5 (2011): 668-674.
    • Frijters, Raoul, et al. "Literature mining for the discovery of hidden connections between drugs, genes and diseases." PLoS computational biology 6.9 (2010): e1000943.
  8. Sentiment Analysis
    • Salathé, Marcel, et al. "The dynamics of health behavior sentiments on a large online social network." EPJ Data Science 2.1 (2013): 1-12.
  9. Big Data
    • Calabria, A., Leo, S., Benedicenti, F., Cesana, D., Spinozzi, G., Orsini, M., ... & Montini, E. (2014). «VISPA: a computational pipeline for the identification and analysis of genomic vector integration sites“. Genome, 6, 67.
  10. Spreading Activation Networks
    • Alvarez, Jose María, et al. "Application of the spreading activation technique for recommending concepts of well-known ontologies in medical systems." Proceedings of the 2nd ACM Conference on Bioinformatics, Computational Biology and Biomedicine. ACM, 2011
  11. Matching Clinical Ontologies
    • Jiménez-Ruiz, Ernesto, and Bernardo Cuenca Grau. "Logmap: Logic-based and scalable ontology matching." The Semantic Web–ISWC 2011. Springer Berlin Heidelberg, 2011. 273-288
  12. Topic Models
    • Paul, Michael J., and Mark Dredze. "A model for mining public health topics from Twitter." HEALTH 11 (2012): 16-6.
    • Paul, Michael J., and Mark Dredze. "You are what you Tweet: Analyzing Twitter for public health." ICWSM. 2011
  13. Datenschutz
    • Aberdeen, John, et al. "The MITRE Identification Scrubber Toolkit: design, training, and assessment." International journal of medical informatics 79.12 (2010): 849-859.
    • Deleger, Louise, et al. "Large-scale evaluation of automated clinical note de-identification and its impact on information extraction." Journal of the American Medical Informatics Association 20.1 (2013): 84-94
  • Bing Liu: Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Springer, 2009.
  • Robert Nisbet, John Elder, Gary Miner: Handbook of Statistical Analysis and Data Mining Applications. Elsevier, 2009.
  • Ronen Feldman, James Sanger: The Text Mining Handbook – Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, 2007.
  • Soumen Chakrabarti: Mining the Web – Discovering Knowledge from Hypertext Data. Morgan Kaufmann Publishers, 2003.
  • Morris Degroot, Mark J. Shervish: Probability and Statistics. Addison Wesley, 2001.
  • Richard O. Duda, Peter E. Hart, and David G. Stork: Pattern Classification. Wiley-Interscience, 2000.
  • Simon Haykin: Neural Networks and Learning Machines. Prentice Hall, 2008.
  • Tom Mitchell: Machine Learning – An Introduction. Morgan Kaufman, 2007.

Copyright (C) 2014 Peter Geibel, info@peter-geibel.de. Alle Rechte vorbehalten. Impressum