PDF tekstiksi ja Markdowniksi

Purkaa PDF-tiedoston tekstikerroksen selaimessa, säilyttää sivujärjestyksen ja generoi rinnakkain sekä raakatekstin että heuristisesti jäsennellyn Markdown-version. Valinnaisesti voit ajaa myös sivukohtaisen OCR-tunnistuksen paikallisella Tesseract.js-moottorilla.

Kaikki käsittely tehdään paikallisesti selaimessa. OCR-tila käyttää mukana tulevia paikallisia JS-, WASM- ja kielitiedostoja ilman ulkoisia verkkokutsuja.

Tiedosto Ei tiedostoa

Vedä PDF alle tai avaa tiedosto valitsimesta.

Sivut -

Sivumäärä päivittyy purun yhteydessä.

Rivit -

Arvio poimituista tekstiriveistä.

Merkit -

Raakatekstin merkkimäärä ilman metatietoja.

Valitse PDF-tiedosto tai pudota se alle purettavaksi.

Markdown-versio muodostetaan tekstirakenteesta heuristiikoilla: otsikot, listat ja kappalejaot tunnistetaan mahdollisuuksien mukaan, mutta lopputulos kannattaa tarkistaa ennen julkaisua. OCR voidaan pitää poissa päältä, laittaa automaattiseksi fallbackiksi tai pakottaa kaikille sivuille.

Syöttö

Tiedoston valinta

Voit klikata aluetta tai pudottaa yhden PDF-tiedoston. Kun purku valmistuu, saat rinnakkain TXT- ja MD-version sekä kopiointi- ja lataustoiminnot.

Pudota PDF tähän tai avaa tiedosto tiedostonvalitsimesta Tuettu syöte: yksi paikallinen PDF-tiedosto

OCR

Valinnainen kuvantunnistus

Tekstikerros on nopein ja tarkin, jos PDF sisältää sen valmiina. OCR kannattaa ottaa käyttöön skannatuille sivuille tai pakottaa kaikille sivuille, jos tekstikerros on huonolaatuinen.

Automaattinen fallback käyttää OCR:ää vain niillä sivuilla, joilta PDF:n oma tekstikerros puuttuu. 200 DPI on useimmiten hyvä kompromissi nopeuden ja tarkkuuden välillä.

Paikalliset OCR-assetit ovat käytettävissä.
Korkeampi DPI tuottaa yleensä tarkemman tuloksen, mutta kasvattaa muistinkäyttöä ja ajoaikaa sivu sivulta.

Tuloste

Raakateksti

Mahdollisimman suoraviivainen tekstipoiminta sivujärjestyksessä.

Ei vielä sisältöä.

Tuloste

Markdown

Heuristinen jäsennys, joka yrittää tunnistaa otsikot, listat ja kappaleet.

Ei vielä sisältöä.

Huomiot

Miten tulosta kannattaa lukea