Purkaa PDF-tiedoston tekstikerroksen selaimessa, säilyttää sivujärjestyksen ja generoi rinnakkain sekä raakatekstin että heuristisesti jäsennellyn Markdown-version. Valinnaisesti voit ajaa myös sivukohtaisen OCR-tunnistuksen paikallisella Tesseract.js-moottorilla.
Kaikki käsittely tehdään paikallisesti selaimessa. OCR-tila käyttää mukana tulevia paikallisia JS-, WASM- ja kielitiedostoja ilman ulkoisia verkkokutsuja.
Vedä PDF alle tai avaa tiedosto valitsimesta.
Sivumäärä päivittyy purun yhteydessä.
Arvio poimituista tekstiriveistä.
Raakatekstin merkkimäärä ilman metatietoja.
Markdown-versio muodostetaan tekstirakenteesta heuristiikoilla: otsikot, listat ja kappalejaot tunnistetaan mahdollisuuksien mukaan, mutta lopputulos kannattaa tarkistaa ennen julkaisua. OCR voidaan pitää poissa päältä, laittaa automaattiseksi fallbackiksi tai pakottaa kaikille sivuille.
Syöttö
Voit klikata aluetta tai pudottaa yhden PDF-tiedoston. Kun purku valmistuu, saat rinnakkain TXT- ja MD-version sekä kopiointi- ja lataustoiminnot.
OCR
Tekstikerros on nopein ja tarkin, jos PDF sisältää sen valmiina. OCR kannattaa ottaa käyttöön skannatuille sivuille tai pakottaa kaikille sivuille, jos tekstikerros on huonolaatuinen.
Automaattinen fallback käyttää OCR:ää vain niillä sivuilla, joilta PDF:n oma tekstikerros puuttuu. 200 DPI on useimmiten hyvä kompromissi nopeuden ja tarkkuuden välillä.
Tuloste
Mahdollisimman suoraviivainen tekstipoiminta sivujärjestyksessä.
Tuloste
Heuristinen jäsennys, joka yrittää tunnistaa otsikot, listat ja kappaleet.
Huomiot