日本語単語割り切れツール

2019-10-16 07:07栏目:千亿游戏官网
TAG:

境况:对日开拓语言处理

须要:深入分析词语,将词语中的克罗地亚语单词分割,转变格局。

分析:

  任务1:词语拆分

  职分2:转变方式

 

土耳其共和国语的款型转变能够用kanavetor去贯彻 很轻易直接调用Kana类的convert方法就足以,在Kana的官方网址络得以见见用法(即使看不懂介绍,见到管网的表格应该也就有目共睹了~)。

第一在于词语的拆分上:

用语拆分使用了Kuromoji,Kuromoji是一款相当好用的法语分词工具,况且,分解后的词是足以自动将汉字,平假名等转变来カタカナ的,有类似要求的能够平昔用这几个而不用再去探求另外工具了。Kuromoji作者找到了七个版本,二个是kuromoji,0.7.7本子,官英特网说贡献给了apache,内置在Lucene的4.0,5.0版本里,由于忘记Lucene的用法,暂时不记挂。别的三个本子是kuromoji-ipadic,那些东东和kuromoji都是两个公司出的,不过略有不一致,稍微研究了弹指间,kuromoji在动用的时候是只好找到jar包,找不到源代码文件的,通过maven下载能够,不过gradle是引进不了的。而kuromoji-ipadic则是gradlle也足以援引,而且引进之后方可以知道见源码。别的kuromoji究竟是先前的api,还恐怕有部分微细的顽固的病痛。

kuromoji官网:

Kuromoji-ipadic官网:

Kuromoji用法:

1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "t" + );

4 }

↑↑↑那个api对菲律宾语汉字的识别率比不上下边包车型客车api(有个别简体英语汉字和特意面生的鉴定分别不出去,究竟是老版本),况且碰到不认知的汉字时token调用get方法会得到null。。。不提议选择。

Kuromoji-ipadic用法:

1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        

顺带一提,kuromoji-ipadic由于是用new爆发产生实例的,所以一旦你的工具或体系须求转移大批量语汇,要在乎不要做太多的new操作,不然会异常的慢异常慢极慢,此时得以定义成静态常量恐怕单例形式。

接待大家斟酌和求教。

 

版权声明:本文由千亿游戏官网发布于千亿游戏官网,转载请注明出处:日本語単語割り切れツール