信息可视化1——文字云(1)

January 27, 2013

 

 

 

数据可视化之美(通过专家的眼光洞察数据)

一、《数据可视化之美》观点:

作者认为”数据可视化的美是指:新颖、充实、高效、美感”。

新颖是指一种崭新的观察数据的视角,让读者对信息达到新的理解高度;

充实是指可视化的信息传递的能力,除了关注数据还要考虑想要表达的信息和应用场景;

高效是直截了当地传达集中的信息,减少数据噪音,不需要覆盖过多主题。

美感是图形化构建信息,包括坐标轴、布局、形状、色彩、排版、线条,以此引导读者、传播信息、揭示关系、突出结论、提高视觉魅力。

成功的可视化信息是实用且充实,需要考虑预期的信息和使用的场合。

使用的场景包括两种:一揭示设计师已经知道的信息;二帮助未知事物的研究(元素周期表)

预期的信息是你要传递什么知识、回答什么问题、讲述什么故事。这需要在规划阶段来完成。此外还要对已掌握的信息和读者的需求和你的目标明确。

二、可视化之文字云。

文字是信息表达的重要工具,如何将文本信息可视化?使用那些软件可以实现?

英文文字的信息可视化工具有很多好用的,首推wordle

目前大多数的英文工具不支持中文字符,或者效果不好。台湾的timdream开发了”HML5文字云:文章词频分析机“(访问需要翻墙,需要梯子的请留言),使用之后觉得还不错,简单易操作,上手快。

下图是我将18大报告做了词频分析,可以看出”社会、发展、建设、社会主义”这几个词是报告的高频词汇。不过也发现了问题,比如分词准确度有待提高,所以出现”国特色社会主义”这样的词。

zrclip_001n779bdf96

先试试HTML5文字云,更为精准的分析需要几个软件配合来实现,稍候会放出。

zrclip_002n3e1f508f

html文字云可以分析9中类型的文本,具体包括:RSS Feed、网页、TXT文本、Twitter、facebook、Google+、维基百科词条以及台湾的几个blog。

Rss和网页类的文本的文字云效果一般,可能是网页里的非有效信息没有被剔除。

觉得重要的是txt类型文本的分析。你需要先将文本处理为UTF-8类型的字符(可以通过uedite32等来实现),保存为TXT文本,然后导入,在本地分析,而不是上传到其服务器。

zrclip_004p6f67234c

可以通过放大、缩小文字和间距来调正页面,词的位置会发生变化,可以选择更为清晰准确的排列;通过”重新排列”操作来变换词的颜色,选择醒目的页面。

(完)

Technorati : ,
Del.icio.us : ,
Flickr : ,
Zooomr : ,