基于大语言模型的大数据分析教学应用探索与实践-成都锦城学院-计算机与软件学院

基于大语言模型的大数据分析教学应用探索与实践

发布日期:2023-11-28

基于大语言模型的大数据分析教学应用探索与实践

计算机学院李欣

随着大语言模型的兴起，人工智能应用跨入了一个全新的阶段，新技术对现有的知识领域和学习模式带来了新的挑战。在大数据分析领域，可以尝试从辅助学习、辅助分析、辅助科研三个维度进行探索实践。

辅助学习方面，在专业课的教学中，如R语言分析，我们可以鼓励同学们积极融入chatGPT、文心一言等知识增强型大语言模型的使用，如问题的互动检索、程序开发错误分析、探索性新知学习等，引导同学们拥抱新技术，通过对话互动，回答问题，协助创作，高效便捷地帮助同学们获取信息、知识和灵感。如在解决R语言程序开发过程中英文的警告、错误的提示理解和分析，大语言模型便提供了很好的学习实践知识库。

李欣老师教学过程中介绍ChatGPT使用

辅助分析方面，对于数据分析不熟悉的同学，可以使用大语言模型设计大数据分析环节的数据探索过程、预处理函数、构建基本的模型训练、模型评估等方法，为同学们提供解决问题的思路和分析参考，从而使得分析项目有切实可行的切入点。在设计提问时，重点关注Prompt的万能公式三部曲：明确任务和目标、构建提示词或提示语句、选择适当的模型和参数。例如我们需要一个R语言数据缺失值清洗和填充函数。针对这个问题的提问方式，可以设计如下的Prompt模板："请描述您需要清洗和填充的R语言数据的情况，包括数据集的规模、数据结构、需要清洗和填充的具体内容，类别型和数值型的清洗和填充区别，以及任何其他相关的信息和参数。"

具体的设计内容如下：

请设计一个R语言的缺失值处理函数，实现缺失值的识别和填充。待处理数据集是数据框结构、数据规模至少为1000*5，离散型数据使用众数填充、连续型数据使用均值填充，并以数据框的形式返回处理后的数据。

大语言模型生成的R语言预处理框架

大语言模型根据提示词工程，生成了一个基本符合要求的预处理函数，首先检查数据框中是否存在缺失值。如果有，则分别处理离散型和连续型数据。对于离散型数据，我使用众数来填充缺失值；对于连续型数据，我们使用均值来填充缺失值。最后，返回处理后的数据框。注意，这个函数假设数据框中的缺失值表示为NA。如果你的数据框使用不同的方式表示缺失值，你需要相应地修改函数中的代码。

这样的提问方式可以引导回答者详细描述他们的需求，从而更好地理解他们的数据清洗和填充需求。接着可对需求进行详细解析，更准确地为其提供相应解决方案。

辅助科研方面的设想，可采集同学们在使用大语言模型过程中的搜索行为及Prompt问询模板文本，进行NLP自然语言处理分析，探索学生关注的问讯主题词分析，挖掘学生的课程掌握的薄弱环节，洞悉学生自主学习的兴趣点，从而优化老师教学过程中的学生学习画像的构建，帮助老师们更好的结合同学们的学习特点和习惯，因材施教，开展个性化智能化的人才培养。同时该模式具有一定的迁移性，如智慧旅游、出行方式等大数据领域。

可拓展领域1：学生学习画像

可拓展领域2：大数据智慧旅游