サンプル集  >  Python  >  pdfをMarkdownへ変換 MarkItDown
pdfをMarkdownへ変換 MarkItDown
2025/12/06

pdfをMarkdownへMarkItDownを使って変換してみます。

◆環境
OS Windows 10 Home 22H2 64bit OS x64 プロセッサ
Python 3.13.1
VS Code 1.106.0
  1. MarkItDownをインストール
  2. pdfをMarkdownへ変換

MarkItDownをインストール

MarkItDownは以下のコマンドでインストールします。

pip install markitdown

コマンドプロンプトで実行してみます。

:
Using cached markitdown-0.1.4-py3-none-any.whl (58 kB)
Installing collected packages: markitdown
Successfully installed markitdown-0.1.4

0.1.4がインストールされました。

pdfをMarkdownへ変換

MarkItDownのconvert()でpdfをMarkdownに変換してみます。

pdf2md.py
 1: 
 2: 
 3: 
 4: 
 5: 
 6: 
 7: 
 8: 
 9: 
10: 
11: 
12: 
13: 
14: 
15: 
16: 
17: 
18: 
19: 
from datetime import datetime, timezone, timedelta
from markitdown import MarkItDown
import sys

JST = timezone(timedelta(hours=9))

inpt_file = sys.argv[1]

md = MarkItDown()

start = datetime.now(JST)
result = md.convert(inpt_file)
end = datetime.now(JST)

with open(inpt_file+".md""w", encoding="utf-8") as f:
    f.write(result.text_content)

proc_time = end - start
print(f"変換時間: {proc_time} ms")

テスト用のPDF(test-word.pdf)を作成します。


テスト用のPDFを指定して実行してみます。

> py .\pdf2md.py .\test-word.pdf 
変換時間: 0:00:00.047938 ms

変換されたMarkdownファイルを確認したところ、テキストは抽出されていましたが文字のサイズとか表とかは何も表現されていませんでした。

テスト用 PDF の見出し1です。
テスト用 PDF の見出し2です。

テスト用 PDF の見出し3です。

テスト用 PDF の本文です。

山田  太郎

Alex

入社年

2020 年 1 月 6 日

2022 年 3 月 1 日

住所

静岡県

US

64ページあるpdfを変換してみます。

> py .\pdf2md.py .\RLJ012A020.pdf
変換時間: 0:00:22.463198 ms

22秒程度かかりました。

▲ PageTop  ■ Home


Copyright (C) 2025 ymlib.com