Este projeto tem como finalidade principal extrair textos das exportações em JSON de chats do aplicativo de mensagens Telegram.
- Docker Engine: versão 20.10.18 ou mais recente.
- Docker Compose: versão 2.10.2 ou mais recente.
Os scripts estão na pasta scripts/ e pode ser rodados a partir da pasta do projeto dando primeiro a permissão via chmod +x ./scripts/*.sh. Após dada a devida permissão, rode-os usando a sintaxe ./scripts/[nome_script].sh.
Para o extrator funcionar corretamente, ele exige um arquivo de entrada que deve ser colocado na pasta /in chamado result.json, este arquivo pode ser de qualquer chat ou canal exportado do telegram no formato JSON.
Após rodar o script, o script python gerará um arquivo texts.csv na pasta /out com os dados das mensagens de texto extraídas do arquivo result.json.
- Após dada a permissão adequada aos scripts:
$ ./scripts/up.sh
- Se precisar fazer a construção da imagem novamente para se livrar de erros:
$ ./scripts/build.sh
Em seguida rode o script do passo 1.
Há também um script extra para apagar o container se ocorrer um problema de execução no passo 1:
$ ./scripts/down.sh
Este script irá rodar o docker compose downe apagar todas as configurações do compose seguidas no docker-compose.yml.
Há presentes nesse repositório a configuração necessária para realizar a depuração do script caso necessário.
Para realizar a depuração do script main.py dentro do container Docker, descomente a linha que está presente no arquivo Dockerfile:
#CMD python -m debugpy --listen 0.0.0.0:5678 --wait-for-client main.pyE comente a linha principal:
CMD python main.py
Após realizar as alterações no Dockerfile, rode o script do extrator como documentado na seção Como rodar o extrator logo acima.
O script só irá rodar depois que o cliente de depuração do VS Code for inicializado corretamente. Veja este vídeo de exemplo no YouTube demostrando seu uso:
https://www.youtube.com/watch?v=ywfsLKRLmf4
Lucas Plus 10