Skip to content

Commit

Permalink
Update Tokenizer info inREADME.md (#184)
Browse files Browse the repository at this point in the history
  • Loading branch information
w1nston19 authored Dec 14, 2024
1 parent 3692648 commit f65ec1b
Showing 1 changed file with 12 additions and 1 deletion.
13 changes: 12 additions & 1 deletion homeworks/02-goodreads/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -134,7 +134,18 @@ public interface SimilarityCalculator {

Частичната имплементация на гореспоменатите класове за калкулиране ще намерите [тук](./resources).

3. **Book Finder API**
3. **Tokenizer**


В пакета `bg.sofia.uni.fmi.mjt.goodreads.tokenizer` ще намерите частична имплементация на класа `Tokenizer`. Неговата идея е да извлича думи от подаден стринг като прилага "изчистване" на стринга и премахване на stopwords. Tokenizer класа има метод `List<String> tokenize(String input)`, чиято идея е да извлече всички думи от подадения `String`.

За целта трябва първо да преханем всички препинателни знаци и последователности от повече от един `whitespace` и финално да превърнем резултата в `lowercase`. След това трябва да извлечете думитe и да премахнете тези от тях, които са stopwords.

Полезни regex-и:
- препинателни знаци: `\\p{Punct}`
- whitespace: `\\s+`

4. **Book Finder API**

Интерфейс за търсене и филтриране на книги:

Expand Down

0 comments on commit f65ec1b

Please sign in to comment.