Vraag Hoe duplicaatbestanden te vinden (en te verwijderen)


Ik heb een vrij grote muziekcollectie en er zijn wat duplicaten in. Is er een manier om dubbele bestanden te vinden? Op zijn minst door een hash te doen en te zien of twee bestanden dezelfde hash hebben.

Bonuspunten voor het vinden van bestanden met dezelfde naam, afgezien van de extensie - ik denk dat ik een aantal nummers heb met zowel mp3- als ogg-formaatversies.

Ik ben blij dat ik de opdrachtregel gebruik als dat de gemakkelijkste manier is.


121
2017-09-08 19:11


oorsprong




antwoorden:


ik gebruik fdupes voor deze. Het is een commandline-programma dat kan worden geïnstalleerd vanuit de repositories met sudo apt install fdupes. Je kunt het zo noemen fdupes -r /dir/ect/ory en het zal een lijst met dupes afdrukken. fdupes heeft ook een eenvoudige Homepage en een Wikipedia-artikel, die nog wat programma's bevat.


128
2017-09-08 19:20



Het heeft ook een "-d" optie waarmee je kunt kiezen welke kopie je wilt bewaren, en de andere wilt verwijderen (of je kunt ze allemaal bewaren als je dat wilt). - Matthew Crumley
Hoe kan ik de optie -d gebruiken om mijn probleem op te lossen hier - John McKean Pruitt
Is het mogelijk voor fdupes om dubbele mappen te vermelden in plaats van dubbele bestanden? - Anderson Green
Kunt u in meer detail uitleggen hoe u alle duplicaten verwijdert (waarbij u slechts één kopie van elk bestand overhoudt) in een recursieve mappenboom? Ik wil dit automatisch doen, dat wil zeggen, zonder elke keer te specificeren welk bestand moet worden bewaard. Het zou gewoon een van de duplicaten moeten selecteren. - becko
fdupes -r . -d -N zou de eerste instantie moeten opslaan en de dupes moeten verwijderen. Ik heb zojuist met succes een enkele map gewist met fdupes . -d -N niet recursief - Simon B


FSlint heeft een GUI en een aantal andere functies. De uitleg van het algoritme voor het controleren van duplicaten in hun veelgestelde vragen:

1. exclude files with unique lengths
2. handle files that are hardlinked to each other
3. exclude files with unique md5(first_4k(file))
4. exclude files with unique md5(whole file)
5. exclude files with unique sha1(whole file) (in case of md5 collisions).

fslint  Install fslint


58
2017-09-08 19:31



Bedankt. Merk op dat de opdrachtnaam "fslint-gui" is en dat de opdrachtregelprogramma's niet standaard in $ PATH staan ​​- ze bevinden zich in / usr / share / fslint / fslint. Ik was in de war toen ik geen hulp kreeg bij welk pakket het was door gewoon fslint te draaien (via / usr / lib / command-not-found). - nealmcb
precies wat nodig is - Tebe
@nealmcb Indien gebruikt sudo apt-get install fslint, de installatie wordt momenteel geplaatst fslint-gui op het pad en ik kan het overal vandaan laten lopen door gewoon te typen fslint-gui. Je kunt vinden waar fslint-gui leeft door te typen which fslint-gui (het lijkt op een Python-script). - user29020


Lijst van programs/scripts/bash-solutions, die duplicaten kan vinden en onder kan lopen nix:

  1. dupedit: Vergelijkt vele bestanden tegelijk zonder controlesom. Vermijdt het vergelijken van bestanden met zichzelf wanneer meerdere paden naar hetzelfde bestand verwijzen.
  2. dupmerge: werkt op verschillende platforms (Win32 / 64 met Cygwin, * nix, Linux etc.)
  3. dupseek: Perl met geoptimaliseerd algoritme om leesfouten te verminderen.
  4. fdf: Perl / c gebaseerd en draait op de meeste platforms (Win32, * nix en waarschijnlijk anderen). Gebruikt MD5, SHA1 en andere checksum-algoritmen
  5. freedups: shell-script, dat door de opgegeven mappen zoekt. Wanneer het twee identieke bestanden vindt, koppelt het ze hard aan elkaar. Nu bestaan ​​de twee of meer bestanden nog steeds in hun respectieve mappen, maar slechts één kopie van de gegevens wordt op schijf opgeslagen; beide telefoonboekvermeldingen wijzen naar dezelfde gegevensblokken.
  6. fslint: heeft opdrachtregelinterface en GUI.
  7. liten: Pure Python deduplicatie-opdrachtregelprogramma en bibliotheek, met md5-checksums en een nieuw bytevergelijkingsalgoritme. (Linux, Mac OS X, * nix, Windows)
  8. liten2: Een herschrijving van de originele Liten, nog steeds een opdrachtregelprogramma, maar met een snellere interactieve modus met behulp van SHA-1 controlesommen (Linux, Mac OS X, * nix)
  9. rdfind: Een van de weinige die duplicaten rangschikken op basis van de volgorde van de invoerparameters (mappen om te scannen) om niet te worden verwijderd in "originele / bekende" bronnen (als er meerdere mappen worden gegeven). Gebruikt MD5 of SHA1.
  10. rmlint: Snelle zoeker met opdrachtregelinterface en veel opties om ook andere pluisjes te vinden (gebruikt MD5)
  11. ua: Unix / Linux opdrachtregelprogramma, ontworpen om met find (en dergelijke) te werken.
  12. findrepe: gratis, op Java gebaseerd opdrachtregelprogramma dat is ontworpen voor een efficiënte zoekactie in dubbele bestanden, het kan zoeken in ritsen en potten (GNU / Linux, Mac OS X, * nix, Windows)
  13. fdupe: een klein script geschreven in Perl. Snel en efficiënt zijn werk doen.1
  14. ssdeep: identificeer bijna identieke bestanden met Context Triggered Piecewise Hashing

48
2018-04-03 01:22



Zijn deze programma's in staat om dubbele mappen te vinden (niet alleen dubbele bestanden?) - Anderson Green
@AndersonGreen rmlint kan dubbele mappen vinden. rmlint -T dd - oligofren
voor Ubuntu is een andere manier om bestanden te openen, te zoeken (control-f) voor een bepaalde extensie (bijv. .mp3) en dan te sorteren op de bestandsnaam; dit maakt het mogelijk om duplicaten met de hand te verwijderen en tegelijkertijd de locaties van de duplicaten te tonen. - axd


Als uw deduplicatietaak muziekgerelateerd is, voert u eerst de picard toepassing om uw muziek correct te identificeren en te labelen (zodat u dubbele .mp3 / .ogg-bestanden vindt, zelfs als de namen niet kloppen). Merk op dat Picard ook beschikbaar is als een Ubuntu-pakket.

Dat gedaan, gebaseerd op de musicip_puid tag kun je gemakkelijk al je dubbele nummers vinden.


6
2017-09-08 21:46





Een ander script dat dit doet is rmdupe. Van de auteurspagina:

rmdupe gebruikt standaard linux-opdrachten om binnen gespecificeerde mappen te zoeken naar dubbele bestanden, ongeacht de bestandsnaam of extensie. Voordat dubbele kandidaten worden verwijderd, worden ze byte-voor-byte vergeleken. rmdupe kan ook duplicaten controleren tegen een of meer referentiemappen, kan bestanden trashen in plaats van verwijderen, staat een aangepaste verwijderopdracht toe en kan zijn zoekopdracht beperken tot bestanden van een gespecificeerde grootte. rmdupe bevat een simulatiemodus die rapporteert wat er zal worden gedaan voor een bepaalde opdracht zonder daadwerkelijk bestanden te verwijderen.


4
2018-04-22 07:34





Heb je geprobeerd

finddup

of

finddup -l

Ik denk dat het goed werkt.


3
2017-07-05 04:34





Voor muziek gerelateerde dubbele identificatie en verwijdering Picard en Jaikoz door http://musicbrainz.org/ is de beste oplossing. Jaikoz Ik geloof dat je muziek automatisch tagt op basis van de gegevens van het songbestand. Je hebt niet eens de naam van het nummer nodig om het nummer te identificeren en alle metagegevens eraan toe te wijzen. Hoewel de gratis versie slechts een beperkt aantal nummers in één run kan taggen, maar je kunt het zo vaak uitvoeren als je wilt.


2
2018-04-22 07:47





ik gebruik komparator - sudo apt-get install komparator (Ubuntu 10.04+ ) - als GUI-tool voor het vinden van duplicaten in handmatige modus.


2
2017-12-29 12:15