| Linuxコマンド |
| 用語集 |
| debian メモ |
| apache2 メモ |
| MySQL メモ |
| Oracle メモ |
| PostgreSQL |
| HOME |
pdfをMarkdownへMarkItDownを使って変換してみます。
◆環境| OS | Windows 10 Home 22H2 64bit OS x64 プロセッサ |
|---|---|
| Python | 3.13.1 |
| VS Code | 1.106.0 |
MarkItDownをインストール
MarkItDownは以下のコマンドでインストールします。
pip install markitdown
コマンドプロンプトで実行してみます。
:
Using cached markitdown-0.1.4-py3-none-any.whl (58 kB)
Installing collected packages: markitdown
Successfully installed markitdown-0.1.4
Using cached markitdown-0.1.4-py3-none-any.whl (58 kB)
Installing collected packages: markitdown
Successfully installed markitdown-0.1.4
0.1.4がインストールされました。
pdfをMarkdownへ変換
MarkItDownのconvert()でpdfをMarkdownに変換してみます。
| pdf2md.py | ||
|
テスト用のPDF(test-word.pdf)を作成します。

テスト用のPDFを指定して実行してみます。
> py .\pdf2md.py .\test-word.pdf
変換時間: 0:00:00.047938 ms
変換時間: 0:00:00.047938 ms
変換されたMarkdownファイルを確認したところ、テキストは抽出されていましたが文字のサイズとか表とかは何も表現されていませんでした。
テスト用 PDF の見出し1です。
テスト用 PDF の見出し2です。
テスト用 PDF の見出し3です。
テスト用 PDF の本文です。
山田 太郎
Alex
入社年
2020 年 1 月 6 日
2022 年 3 月 1 日
住所
静岡県
US
テスト用 PDF の見出し2です。
テスト用 PDF の見出し3です。
テスト用 PDF の本文です。
山田 太郎
Alex
入社年
2020 年 1 月 6 日
2022 年 3 月 1 日
住所
静岡県
US
64ページあるpdfを変換してみます。
> py .\pdf2md.py .\RLJ012A020.pdf
変換時間: 0:00:22.463198 ms
変換時間: 0:00:22.463198 ms
22秒程度かかりました。
Copyright (C) 2025 ymlib.com
