Linked Data看上去十分美好,但从我看来似乎有很多待解决的问题:
-
如何提取数据
我们已经有了成千上万个包含数据的网页,让我们手工的把这些数据提取出来难度很大。怎么样通过计算来自动提取这些数据?
-
如何记录数据
我们有了数据,需要好的方法来记录。对于文字数据来说,类似XML的文件记录看上去是不错的方案。但如何记录图片中的数据和视频中的数据?是把他们用文字描述出来再记录,还是用另外的方式直接记录?
-
如何表达数据
原始数据有用,但我们不能只把干巴巴的数据扔给读者,而需要“漂亮的”网页来呈现这些数据。前人已经有关于结合XML和TeX的研究,我相信格式方面是没有问题的。但是否能通过计算来自动组织文章,则是一个大的难题。比如我们有了关于奥巴马的数据,如出生日期、教育背景、家庭背景之类的,如何能让机器用语言来组织这些数据,成为一篇奥巴马的建立。这一方面需要期待人工智能和语言研究的发展。什么时候我们能做到这一步,自动写作这个迷人的目标就算实现了。