Как спарсить почты из документов?

Honor

Null
Пользователь
Регистрация
1 Апр 2025
Сообщения
2
Реакции
1
Привет, парни. Подскажите, а как вообще вытаскивают почты из кучи файлов в папке? Типа есть папка с разными файлами — текстовые, доки, может пдфки...
Как проще всего из них собрать все email-адреса?
 
я когда-то делал для себя такой скрипт. Парсит почты из всех файлов в указанной папке, поддерживает .txt, .docx и .pdf.
Bash:
pip install python-docx
pip install PyPDF2
python3 mail-parser.py
 
От души!
 
Привет! Самый простой способ - написать скрипт на Python. Используй os для обхода файлов, PyPDF2 или pdfplumber для PDF, python-docx для DOCX, и регулярки (re) для поиска email'ов. Пример regex: r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}".
 
Сверху