开始日期: 2024-12-14
课时安排: 7周在线小组科研学习+5周不限时论文指导学习
适合人群
适合年级 (Grade): 大学生及以上
适合专业 (Major): 数据科学、数据处理、统计学、机器学习、深度学习等专业的学生
学生需要具备线性代数及概率论与数理统计基础,至少会熟练使用一门编程语言并修读算法与数据结构,有过机器学习项目开发经验的申请者优先;建议预修专业基础课程:《Python编程与数据处理》、《机器学习的数学基础:线性代数》、《高等数学微积分与应用》、《概率论与数理统计基础》
建议选修: Python数据处理及其数学原理
导师介绍
Mark
麻省理工学院 (MIT)终身教授
Mark导师现任麻省理工学院(MIT)终身教授,曾获素有“诺贝尔风向标”美誉的美国斯隆研究奖、国际最具声望的博士后奖励Hubble Fellow,并在多个年份获得Web of Science高被引学者称号。
Mark导师的研究兴趣聚焦机器学习、数据科学、人工智能、宇宙物理等,善于利用高性能超级计算机强大的数据处理能力进行数值模拟,训练机器学习和深度学习模型,借助机器学习与数据科学技术分析模拟数据。
任职学校
麻省理工学院(MIT)创立于1861年,是世界著名私立研究型大学,在计算机科学方向享有盛誉,在2020年U.S.News世界大学排名综排位列第二、计算机工程CE专排蝉联首位。学校孕育了90位诺贝尔奖得主、59位美国国家科学奖章获得者,以及75位麦克阿瑟奖获得者。
项目背景
大数据的本质是海量的、多维度、多形式的数据。所以,在大数据面前,以往的数据处理方式无法快速、高效的达成既定目标,而人工智能技术借助机器学习与深度学习算法,更加灵活,并且可以根据不同的训练数据拥有自优化能力,从而使运算量显著增加。“人工智能”与“大数据”的完美结合将改变我们的日常生活,也即将成为各领域研究发展方向的变革工具。项目旨在介绍常用统计学、机器学习和数据科学理论,以及当下最受欢迎的Python编程语言,引导学生探讨不同的数据分析理论和实际应用,为高阶学习打下坚实基础。
项目介绍
学生将在项目中学习数据科学、统计学及机器学习的理论和方法,了解并且掌握Python在数据科学和统计学中的应用。学生将在项目结束时,自选框架和问题,使用Python开发数据分析应用,提交项目报告,进行成果展示。
项目大纲
数据收集、表示及预处理方法 Dealing with Data: Data Representation; Data Collection and Management;
数据降维与聚类方法 Dimensionality Reduction including PCA, LDA, and Manifold Learning.Clustering including K-Means, K-Means++, and Hierarchical Clustering
回归模型与贝叶斯估计 Linear Regression and Bayesian Inference, Polynomial Regression
机器学习分类方法 Classification in General; K-Nearest Neighbors; Decision Trees; Probabilistic Model: Logistic Regression. Multi-class classification
学术研讨1:教授与各组学生探讨并评估个性化研究课题可行性,帮助学生明晰后续科研思路 Final Project Preparation Session I
学术研讨2:学生将在本周课前完成程序设计原型(prototype)及伪代码(Pseudocode),教授将根据各组进度进行个性化指导,确保学生优质的终期课题产出 Final Project Preparation Session II
项目成果展示 Final Presentation
论文辅导 Project Deliverables Tutoring
项目收获
7周在线小组科研学习+5周不限时论文指导学习 共125课时
项目报告
优秀学员获主导师Reference Letter
EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等级别索引国际会议全文投递与发表指导(可用于申请)
结业证书
成绩单