官术网_书友最值得收藏!

Chapter 2. Finding and Working with Words

In this chapter, we cover the following recipes:

  • Introduction to tokenizer factories – finding words in a character stream
  • Combining tokenizers – lowercase tokenizer
  • Combining tokenizers – stop word tokenizers
  • Using Lucene/Solr tokenizers
  • Using Lucene/Solr tokenizers with LingPipe
  • Evaluating tokenizers with unit tests
  • Modifying tokenizer factories
  • Finding words for languages without white spaces
主站蜘蛛池模板: 班戈县| 蓬莱市| 尚义县| 微山县| 小金县| 嘉祥县| 缙云县| 页游| 富川| 东安县| 开化县| 南昌市| 唐河县| 克山县| 高碑店市| 阿坝县| 谷城县| 大埔区| 中卫市| 蒙城县| 新营市| 邹平县| 达日县| 浦江县| 峨边| 南郑县| 丽江市| 新丰县| 修水县| 房山区| 江源县| 夏津县| 黄石市| 榆林市| 左权县| 大同县| 额尔古纳市| 宕昌县| 五河县| 油尖旺区| 宁城县|