pandas提供的表格数据形式非常方便,现在想将pandas的Series中的数据批量添加到jieba的自定义词典,但是jieba没有提供这样的方法,所以想看看有没有什么好方法来插入。
jieba载入自定义词典的方法
jieba是优秀的中文分词工具,它提供了两个载入自定义词典的方法:
- add_word()方法
- load_userdict()方法
add_word()
这个方法用于在程序中动态载入分词,一次处理一个词语,源码如下:
|
|
可以看到,jieba将词语添加到self.FREQ这个字典里面,达到添加自定义词语的目的。而且通过for ch in xrange(len(word))
插入了多个词语,如add_word(“清华大学”),会插入“清”、“清华”、“清华大”以及“清华大学”
load_userdict()
这个方法从文件中载入词语,然后通过add_word
方法载入到自定义词典,源码如下:
|
|
可以看到对于文件中的每一行,load_userdict
都调用add_word
方法载入,其实就是使用了循环将文件中的词语添加到自定义词典罢了。
将list、DataFrame以及Series的数据载入自定义词典
从jieba的load_userdict方法使用的载词方式,可以看出,想要从list、DataFrame以及Series的数据载入自定义词典,只能和load_userdict
方法一样,循环调用add_word
方法了。笑死。