Vraag Manier om woordvoorkomen te tellen


Is er een manier om het voorkomen van een bepaald woord in document- en PDF-bestanden te tellen? Een oplossing die werkt op Windows zal zeer nuttig zijn.

Ik moet het in verschillende talen gebruiken.


4
2018-03-16 14:07


oorsprong




antwoorden:


PDF:

In de terminal:

  • pdftotext YOUR_PDF.pdf YOUR_PDF.txt

  • grep -ci 'word' YOUR_PDF.txt

Bewerk:

Oneliner : pdftotext YOUR_PDF.pdf - | grep -ci 'word'


6
2018-03-16 14:19



Het kan niet worden gebruikt voor iets anders Engels kan het? - Oxwivi
Ik kan niet zien waarom niet. Heb je het geprobeerd? - mount.cifs
Nee, dan doe ik het en kom ik terug. Bovendien, als ik het PDF-document in een tekstbestand moet converteren, twijfel ik erover dat de woorden gelijk zullen blijven ... Nou, ik weet het niet zeker tot ik het probeer ... - Oxwivi
De grep -cĀ optie telt alleen lijnen, geen woorden. (Probeer het bijvoorbeeld eens echo hi hi | grep -c hi; het zegt alleen "1".) Als een omweg splitsen de woorden op spaties: echo hi hi | sed -e 's/ /\n/g' | grep -c hi - Kees Cook
Dat wist ik niet. Leuke oplossing, bedankt! - mount.cifs