网络挖掘考试

今天上午考了朱老师的《网络挖掘》，两个小时的时间，一共8道题目：

数据挖掘的概念及一般步骤（5）
网络挖掘的概念及一般步骤（10）
利用学校图书馆的网络访问日志设计一个图书推荐系统（10）
设计一个“人肉搜索”系统（10）
利用学校科研人员、学生的相关数据（阅读过的文章、作过的标签、发表过的论文、参加过的会议）设计一个科研伙伴推荐系统（25）
手工演算k-Means算法，写出伪代码描述，提出改进意见（10）
手工演算kNN算法（15）
手工演算Apriori算法（15）

前两道是概念题，由于是开卷考试，可以直接抄得到内容。第三到第五道题目是开放性的试题，我比较喜欢，而且答的时候也稍微多用了点时间，日志挖掘、推荐系统等等，学到的知识可以系统地用的上。然后答完这五道题目，发现还有四十分钟的时间。我估摸着如果手工去演算，按我当时对那些复杂数据的厌恶程度，我肯定是算不准的，思考了一下，反正有笔记本在手上，写个程序吧。k-Means跟kNN算法实现起来也很简单。考试这种紧张的局面下，想都没想我选了PHP来编码。大概花了十五分钟的时间实现了两个算法（可以算出试卷上试题的答案，可以给出中间过程），然后就是把数据抄到试卷上。抄完之后就在想，拿手算，真的能算得对么？最后一道题目做了也挺长时间，不过对Apriori算法的复杂度估计让我认为这个时候还是能往试卷上多写几个字就多写几个，在下面的时间里应该是实现不了的。于是我放弃，还是老老实实的手写起来，但是最后还是没有做完。不过朱老师还是很Nice的，收完试卷跟大家廛，“题量可能有点大，大家没有做完也不用担心”，也就不担心了。

其实中间那三道题目还是挺好的，后面的三道计算题的主要问题是数据太复杂。特别是最后一道，给的最小支持度太低，中间过程剪枝也剪不了多少，中间的频繁项集太多，数也数得人眼花缭乱的。

开始选这门课的时候是因为看到课程设计里讲到会讲一些与SNS相关的数据挖掘方面的内容，但这部分我最想听的没有听到。虽然网络挖掘把范围限定在了木网络内容、结构、使用挖掘，但是由于跟数据挖掘有着太多的联系，所以老师讲了许多跟数据挖掘相关的内容，关联规则、分类、聚类等等，这些内容对于学过数据挖掘的人来说是多余的，但对于那些没有学过数据挖掘的人来说可能又略显不足，还需要自己课后再补补相关的内容。不过课程上下来，让我对数据挖掘倒是有了一次系统学习的经历，对网络挖掘也接触了不少的内容，最后的课程设计虽然没有实现系统，但是我觉得我们在了解了相应的技术问题后，给出了一份可行的解决方案。

考完这一门，觉得挺开心的，有收获，自己也算比较认真的学了，这可是这学期唯一一门我愿意做第一排听的课。

AgilePHP.net