近日,国内知名的网络舆情服务商谷尼国际软件公布在线词云图制作工具图悦(http://www.picdata.cn/)分析指标V1.0,具体说明如下:
热词词频TF 指标
TF指标是一个词在文章中出现次数,出现的次数越多一般越重要,输出的词频信息只是参考,目前采用的分词方法是大词优先,兼顾小词,比如“改革”和“改革开放”都是词,在统计词频时,“改革开放”中的“改革”与“改革”的词频分别计算,算两个不同的词。输出的图有“热词词频图”。
热词权重Score指标
1、Score指标是指一个词在文章中重要性,主要由TF热词词频,IDF倒转文档频率,other其它三个指标决定,输出的图有热词权重图。
2、IDF,“倒转文档频率”,表示词的区分能力,区分能力越差的词其主题代表性越弱,比如各种常用词如“如果”。
3、Other,词在文章中的位置因素;词在文章中与其他词的语义聚合程度等。
图悦性能及数据说明
1、导出的EXCEL默认按Score热词权重Z-A排序,是TOP150位的词。若要看词频用户可以EXCEL中自己按热词词频Z-A排序。
2、多个文本数据比对:分别导出的EXCEL排序后再人工比对。
3、输入文本格式:文本长度支持100万汉字。格式为纯文本,你可以从网页中、WORD中等地选择你要分析的文本COPY到文本框。
图悦引用注意事项
各研究报告或新闻报道在表达时应表达“根据谷尼舆情图悦picdata.cn热词分析工具分析显示”,表达指标可以用“热词”、“热词词频”、“热词权重”,不单独表达“词频”、“权重”。