DS-EL3Semester 74 (3-0-2)Elective

Mining Massive Datasets

MapReduce programming model revisited, Beyond MapReduce (Spark, Dask), Data stream mining challenges (concept drift, memory constraints), Sliding window models, Reservoir sampling, Massive data partitioning strategies...

Unit 1: Scalable Data Mining Frameworks

Unit 2: Frequent Itemset Mining and Association Rules

Apriori algorithm and candidate generation, FP-growth and FP-tree structure, Eclat and vertical data format, Sampling-based frequent itemset mining, Parallel/distributed FP-growth, Association rule interestingness measures (support, confidence, lift, conviction), Sequential pattern mining (GSP, SPADE, PrefixSpan).

Unit 3: Graph Mining and Network Analysis

Graph representation (adjacency lists, CSR format), PageRank algorithm and variants (weighted, personalized), HITS algorithm, Triangle counting and clustering coefficients, Community detection (Louvain, spectral clustering, label propagation), Graph sampling and streaming algorithms, Subgraph isomorphism and motif discovery.

Unit 4: Dimensionality Reduction and Clustering at Scale

Mini-batch k-means and scalable EM, Canopy clustering, BIRCH hierarchical clustering, Spectral clustering approximation, t-SNE/UMAP for large datasets, Random projection trees, Streaming PCA and incremental SVD, CUR matrix decomposition for interpretability.

Unit 5: Near-Duplicates and Recommendation Systems

MinHash and Locality Sensitive Hashing (LSH) for Jaccard similarity, SimHash for text documents, Near-duplicate detection at web scale, Matrix factorization (SVD, ALS, NTF), Neighborhood-based collaborative filtering, Content-based recommendation, Hybrid recommenders, Scalable bandit algorithms (LinUCB, Thompson sampling).

Top skills

Data StructuresAlgorithmsComputer NetworksBig DataSemiconductor DesignCommunication Skills

Structure

Semester7

Credits4 (3-0-2)

CategoryElective