PDF tekstiksi ja Markdowniksi

Purkaa PDF-tiedoston tekstikerroksen selaimessa, säilyttää sivujärjestyksen ja generoi rinnakkain sekä raakatekstin että heuristisesti jäsennellyn Markdown-version. Valinnaisesti voit ajaa myös sivukohtaisen OCR-tunnistuksen paikallisella Tesseract.js-moottorilla.

Kaikki käsittely tehdään paikallisesti selaimessa. OCR-tila käyttää mukana tulevia paikallisia JS-, WASM- ja kielitiedostoja ilman ulkoisia verkkokutsuja.

Tiedosto Ei tiedostoa

Vedä PDF alle tai avaa tiedosto valitsimesta.

Sivut -

Sivumäärä päivittyy purun yhteydessä.

Rivit -

Arvio poimituista tekstiriveistä.

Merkit -

Raakatekstin merkkimäärä ilman metatietoja.

Valitse PDF-tiedosto tai pudota se alle purettavaksi.

Markdown-versio muodostetaan tekstirakenteesta heuristiikoilla: otsikot, listat ja kappalejaot tunnistetaan mahdollisuuksien mukaan, mutta lopputulos kannattaa tarkistaa ennen julkaisua. OCR voidaan pitää poissa päältä, laittaa automaattiseksi fallbackiksi tai pakottaa kaikille sivuille.

Syöttö

Tiedoston valinta

Voit klikata aluetta tai pudottaa yhden PDF-tiedoston. Kun purku valmistuu, saat rinnakkain TXT- ja MD-version sekä kopiointi- ja lataustoiminnot.

Pudota PDF tähän tai avaa tiedosto tiedostonvalitsimesta Tuettu syöte: yksi paikallinen PDF-tiedosto

OCR

Valinnainen kuvantunnistus

Tekstikerros on nopein ja tarkin, jos PDF sisältää sen valmiina. OCR kannattaa ottaa käyttöön skannatuille sivuille tai pakottaa kaikille sivuille, jos tekstikerros on huonolaatuinen.

OCR-tila Kielimalli Renderöinti-DPI

Automaattinen fallback käyttää OCR:ää vain niillä sivuilla, joilta PDF:n oma tekstikerros puuttuu. 200 DPI on useimmiten hyvä kompromissi nopeuden ja tarkkuuden välillä.

Korkeampi DPI tuottaa yleensä tarkemman tuloksen, mutta kasvattaa muistinkäyttöä ja ajoaikaa sivu sivulta.

Tuloste

Raakateksti

Mahdollisimman suoraviivainen tekstipoiminta sivujärjestyksessä.

Ei vielä sisältöä.

Tuloste

Markdown

Heuristinen jäsennys, joka yrittää tunnistaa otsikot, listat ja kappaleet.

Ei vielä sisältöä.

Huomiot

Miten tulosta kannattaa lukea

Työkalu käyttää oletuksena PDF:n tekstikerrosta ja voi halutessasi tehdä OCR:n joko fallbackina tai kaikille sivuille.
Markdown-versio lisää monisivuisessa dokumentissa sivurajat HTML-kommentteina, jotta erotus säilyy mutta näkyvä teksti pysyy siistinä.
Monipalstaiset tai voimakkaasti taitetut PDF:t voivat vaatia käsin siivousta, koska tekstin lukujärjestys päätellään joko PDF:n koordinaateista tai OCR:n rivijaosta.
300 DPI kannattaa säästää vaikeille skannauksille; se on selvästi hitaampi kuin 100 tai 200 DPI.