我的工程实践课题是开发一款基于特定知识库的问答系统,主要应用场景为提取文章摘要,例如对论文自动提取摘要。当前此类算法尚未大规模商用,就简单分析一下不同研究方向的概况。
一、已有类似软件的应用场景
现在文档自动摘要技术还未能实现盈利,但局部领域的应用已经显现出其巨大的应用前景。譬如,谷歌的邮件收件箱的一项指能回复功能,再回复邮件时可以得到基于当前邮件的最相关的三句回复。这样可以协助提取邮件及其他文本或图片的主要内容的功能是现在人极其需要的,可以成为在同类应用中脱颖而出的重要凭据,赢得更多用户。
二、这些软件有哪些不足和可以提升的方面?
文章提取摘要还存在很多不足,比如提取式摘要,需要考量的词句权重还需要优化。
在图提取标题之类的应用中,存在很多识别错误的场景,比如百度识图里对图片出现目标的识别常常有不准确的时候。
三、此类软件是什么时候开始出现的,同⼀类型的软件之间是如何竞争的? 发展趋势如何?
此类研究基本是在近四五年才开始在市场逐步应用起来的,处于研究正热的时候,前景非常好。
现在还处于有与的竞争,如果你有别人没有的功能,只要能达成基本满意的效果,也会取得巨大的商业成功。
四、个⼈第⼀次接触此类软件的情景
在研一首次了解到这个领域,在中科大苏研院。软件没有见过,只在论文博文见过相关算法的介绍。
但是仅从对应用场景的试验就可以看出,NLP与NLG是特别重要的计算机技术。
五、这种软件再过10年,20年还会存在么,为什么?
未来此类算法普及后,必然会成为几乎所有与人生活交互的软件的重点,它可以大大减少人们获取重要信息的成本,比如可以将邮件更准确的识别出紧急级别,
对微博重要信息归类,获取新闻主题,科技论文摘要等应用都需要这种技术。就比如博客园写完的随笔,下面就会出现摘要的选项,如果有自动提取摘要的功能,肯定会给写博文的人带来很大便利。