Nén tệp PDF
Các tệp PDF thường có kích thước lớn khi chứa nhiều hình ảnh được quét, ảnh được nhúng hoặc các kiểu chữ cỡ lớn. Công cụ nén này sẽ mã hóa lại các hình ảnh trong tệp PDF (thường là nguyên nhân chính gây tăng kích thước) bằng định dạng JPEG hoặc JPEG2000 ở mức chất lượng đã chọn; rút gọn các kiểu chữ nhúng để chỉ giữ những ký tự thực sự được sử dụng; đồng thời loại bỏ các tài nguyên trùng lặp. Tỷ lệ tiết kiệm thông thường dao động từ 40–80% đối với các tệp chứa nhiều hình ảnh và từ 20–40% đối với các tệp chứa nhiều văn bản.
Cách thức hoạt động của kỹ thuật nén
-
1
Tải lên tệp PDF
Bất kỳ tài liệu nào cũng đều nằm trong giới hạn kích thước phổ biến trên mạng.
-
2
Chọn mức chất lượng
Cao (nén nhẹ, gần nguyên bản), trung bình (cân bằng), thấp (nén tối đa).
-
3
Đã mã hóa lại hình ảnh
Các hình ảnh được nhúng sẽ được nén lại ở chất lượng đã chọn.
-
4
Chọn tập con của phông chữ
Các font được tích hợp chỉ lưu giữ các ký tự thực sự được sử dụng trong tài liệu.
-
5
Loại bỏ dữ liệu trùng lặp trong tài nguyên
Các hình ảnh lặp lại (ví dụ: biểu tượng trên mọi trang) chỉ được lưu trữ một lần và tham chiếu sau đó.
-
6
Tải file nén
So sánh kích thước trước và sau trong giao diện kết quả.
Các tỷ lệ nén điển hình
| Loại PDF | Trước | Sau (cỡ trung bình) | Tiết kiệm |
|---|---|---|---|
| Hợp đồng đã quét (300 dpi) | 25 MB | 4 MB | 84% |
| Danh mục chứa nhiều ảnh | 40 MB | 12 MB | 70% |
| Báo cáo kết hợp (văn bản + biểu đồ) | 8 MB | 3,5 MB | 56% |
| Sách chỉ nội dung văn bản | 2 MB | 1,6 MB | 20% |
| Hóa đơn số hóa | 200 KB | 180 KB | 10% |
Các tệp PDF được tạo trực tiếp trong môi trường số (xuất trực tiếp từ Word, InDesign hoặc từ định dạng web sang PDF) đã khá hiệu quả; trong khi đó, các tệp PDF được quét lại còn có nhiều dư địa để cải thiện về mặt hiệu suất hơn.
Các thiết lập chất lượng, được giải thích
- Cao (áp lực nén tối thiểu): Chất lượng JPEG từ 85 đến 95, không giảm độ phân giải; hình ảnh trông hoàn toàn giống với bản gốc, thường tiết kiệm khoảng 10–30%.
- Trung bình (cân bằng): Chất lượng JPEG từ 70 đến 80, giảm độ phân giải hình ảnh xuống 200 dpi. Hình ảnh vẫn hiển thị rõ nét trên màn hình; có một số hiện tượng nhiễu nhẹ khi phóng đại gần.
- Thấp (độ nén tối đa): Chất lượng JPEG từ 50 đến 65, giảm độ phân giải xuống còn 150 dpi. Chất lượng hình ảnh giảm rõ rệt nhưng văn bản vẫn có thể đọc được; tiết kiệm được 60–85% dung lượng so với các tệp PDF chứa nhiều hình ảnh.
Điều gì được nén
- Hình ảnh màu — Mã hóa lại định dạng JPEG với bước điều chỉnh chất lượng. – Hình vẽ đường nét và ảnh quét: sử dụng JBIG2 hoặc nhóm CCITT 4 cho các ảnh quét hai màu (gần độ mất thông tin tối thiểu đối với ảnh văn bản đen trắng).
- Các phông chữ tích hợp — được chọn lọc từ tập hợp các ký tự sử dụng.
- Sự minh bạch và các mức độ chuyển tiếp – được làm phẳng hoặc đơn giản hóa khi cần thiết.
- Hình ảnh trùng lặp — được lưu trữ một lần và được truy cập nhiều lần.
Những thứ không bị nén
- Hình ảnh vector: Đã khá gọn nhẹ rồi; không mang lại lợi ích đáng kể nào.
- Nội dung văn bản: Đã có kích thước nhỏ ngay từ khi được lưu trữ dưới dạng luồng văn bản.
- Các trường biểu mẫu có cấu trúc, dấu chú thích và siêu dữ liệu: Chưa được thay đổi.
Những gợi ý về giới hạn email và tải lên
| Mục tiêu | Giới hạn điển hình của PDF |
|---|---|
| Tệp đính kèm Gmail | 25 MB |
| Tệp đính kèm trong Outlook | 20 MB |
| Tệp WhatsApp | 100 MB |
| Tin nhắn LinkedIn | 20 MB |
| Hầu hết các biểu mẫu tải lên trên web | 10 MB (biến thiên) |
Việc nén kích thước xuống còn 5 MB hoặc ít hơn sẽ tạo ra dư lượng đủ lớn cho thư điện tử và hầu hết các tệp cần tải lên.
Khi nào không nên nén
- Các bản sao lưu trữ: Lưu các bản gốc chưa nén; chỉ nén khi cần phân phối.
- Các tệp PDF đã sẵn sàng in: Các tệp định dạng PDF không nên được nén lại; hãy giữ nguyên chất lượng ban đầu.
- Các tài liệu có ý nghĩa pháp lý: Việc nén dữ liệu có thể làm thay đổi hình thức hiển thị; vui lòng lưu một bản sao chưa được nén của hồ sơ.
Câu hỏi thường gặp
Trong các tệp PDF, văn bản thường được lưu dưới dạng văn bản thực tế (các ký tự đồ họa) chứ không phải hình ảnh; do đó chất lượng văn bản không bị ảnh hưởng bởi việc nén hình ảnh. Chỉ khi tệp PDF là một bản quét mà mỗi trang đều là hình ảnh thì khả năng đọc hiểu văn bản mới phụ thuộc vào mức độ nén.
Chất lượng trung bình thường là lựa chọn lý tưởng nhất: giảm kích thước rõ rệt (40–70%) mà chỉ gây ra ít tổn thất về chất lượng có thể nhìn thấy. Chỉ nên chuyển sang chất lượng thấp nếu sản phẩm ở mức trung bình không còn phù hợp với yêu cầu.
Việc nén có thể làm thay đổi dữ liệu hình ảnh ở cấp độ điểm ảnh, nhưng điều này chỉ xảy ra trong một số rất ít trường hợp (như chứng cứ pháp y hoặc việc sao chép tác phẩm nghệ thuật). Đối với các hợp đồng, báo cáo và tài liệu thông thường, việc nén không ảnh hưởng đến nội dung hay tính hợp lệ của chữ ký.
Đúng vậy, nhưng hãy kỳ vọng vào hiệu quả giảm dần khi áp dụng các phương pháp nén. Việc nén kép hình ảnh JPEG sẽ làm suy giảm chất lượng hơn mỗi lần thực hiện. Nên sử dụng nguồn hình ảnh chưa được nén nếu có thể.