经验教训
- 不要拖到最后。
这个比赛的时间相比于数学建模,时间真是太长了。参加了很多次数学建模,习惯了三天完成。这是我第一次参加泰迪杯,时间如此宽裕,反而不紧不慢,一直到最后几天才开始做,论文也写得仓促,甚至一开始晚了几秒钟论文没交上去,好在后来晚上提交通道又开放了半个小时。 - 抽空学一学人工智能
这次做的比较慢的一个重要原因是我们组有两个完全不懂神经网络,导致问题二只能让其中一个人独立解决,影响力效率。 - Excel是很有用的技能
无论是处理数据还是绘制图表,Excel的强大都远超想象。而我现在懂的还很少,需要加强。
方法总结
相比于数学建模,泰迪杯的论文要求不是很高,格式、论文结构等各方面都没有硬性规定,但是没有评委能拒绝一篇行文优美干净、结构完整清晰、流程规范、图表丰富的好论文。
公式可以用LaTeX编写,不需要全篇用LaTeX编辑,因为泰迪杯提交时除pdf格式外还需要docx格式的论文。而局部的公式用LaTeX编辑出来,绝对能增色不少。
推荐用这个网站:
https://www.codecogs.com/latex/eqneditor.php
编辑完成后,可以保存为svg格式的矢量图。
泰迪杯比较欣赏清晰明了的流程图,不同于数学建模侧重于解决问题的方法,泰迪杯数据挖掘看重的是结果,因此结果是如何得到的,也是老师们比较在意的问题。流程图其实用PPT就可以做,或者想花里胡哨一点,用亿图图示也行。
既然是数据挖掘,那么将数据、结果用可视化的方式呈现出来也很重要,可以绘制一些直方图、饼图、雷达图、箱型图等等,再加上一些表格,一定要丰富数据的呈现方式。
然后就是如何团队协作,其实团队最好每个人都会一点编程、会写一点论文,我个人倾向于两个人负责解题,同时完成自己那题的论文部分,第三个人负责帮忙编写部分程序和提供思路,然后帮忙制图,把关整体的论文。个人认为,团队竞赛里的分工不用那么死板,有个大体的分工,确保整体工作能并发推进即可。
文本分析
头一次参加数据挖掘比赛,感觉还挺有意思的,我们选的文本分析的题目感觉就更有意思了。
下面是我参考过的一些网页,只记录了几个,许多网页和文献用完就关了。
热词提取方法探讨 https://lilianlw.github.io/2016/11/06/热词提取方法探讨/
中文文本中的关键字提取算法总结 https://blog.csdn.net/cdlwhm1217096231/article/details/94566936?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
使用Python做中文分词和绘制词云 https://zhuanlan.zhihu.com/p/32891779
NLP自然语言处理 中文文本的分词、去标点符号、去停用词、词性标注 https://blog.csdn.net/qq_42491242/article/details/105006651#_101
中文文本的分词、去标点符号、去停用词、词性标注 https://www.jianshu.com/p/b74fad84634e