Métodos do conector de PDF

  • Versão de lançamento: Yokohama
  • Atualizado 30 de jan. de 2025
  • 9 min. de leitura
  • Acelere o processamento de PDF para sua automação de documentos usando os vários métodos do conector de PDF em Design studio de RPA para desktop.

    Encerrar

    Encerra os recursos associados ao documento PDF. Use este método para liberar quaisquer referências e recursos depois de usar o método Load.

    Chame este método quando você não precisar mais usar o documento PDF ou após concluir operações com ele.

    Converter em Excel

    Converte um documento PDF em um documento do Excel Microsoft. Opcionalmente, somente tabelas poderão ser convertidas se especificadas.

    Chame este método com o caminho do arquivo em que o documento do Excel convertido deve ser salvo e, opcionalmente, defina ConvertTablesOnly como verdadeiro se somente as tabelas precisarem ser convertidas.

    Tabela 1. Parâmetros do método ConvertToExcel
    Parâmetro Descrição Tipo de dados
    ExcelFilepath O caminho do arquivo em que o documento do Excel convertido (.xlsx) é salvo. Certifique-se de que o caminho do arquivo inclua o nome e a extensão do arquivo. Cadeia de caracteres
    ConvertTablesOnly Se definido como verdadeiro, somente as tabelas do documento PDF serão convertidas para Excel. O padrão é Verdadeiro. Booliano

    Converter em HTML

    Converte uma página especificada de um formato PDF para HTML. Se o número de páginas for menor ou igual a 0, todas as páginas do PDF serão convertidas em HTML.

    Chame este método com o número da página do PDF que você deseja converter em HTML. Se você passar um número de página menor ou igual a 0, o PDF inteiro será convertido em HTML. O método retorna o conteúdo HTML como uma cadeia de caracteres.

    Tabela 2. Parâmetros do método ConvertToHTML
    Parâmetro Descrição Tipo de dados
    PageNumber (Dados de entrada) O número da página do PDF a ser convertido em HTML. Se este parâmetro for menor ou igual a 0, todas as páginas do PDF serão convertidas em HTML. Os números de página geralmente começam em 1. Int32
    Retornar (saída de dados) Este método retorna o conteúdo HTML como uma cadeia de caracteres, representando o conteúdo do arquivo PDF. Cadeia de caracteres

    Converter em imagem

    Converte uma página especificada de um documento PDF em uma imagem. Opcionalmente, especifique o caminho da imagem em que a imagem será salva, o DPI (pontos por polegadas) e a qualidade da imagem.

    Chame este método com o número da página do PDF a ser convertido, o caminho do arquivo em que a imagem deve ser salva e, opcionalmente, ajuste os parâmetros de DPI e qualidade de imagem.

    Tabela 3. Parâmetros do método ConvertToImage
    Parâmetro Descrição Tipo de dados
    NúmeroPágina O número da página do PDF a ser convertido em uma imagem. Os números de página geralmente começam em 1. Int32
    ImagePath O caminho do arquivo em que a imagem convertida é salva. Certifique-se de que o caminho do arquivo inclua o nome e a extensão do arquivo Cadeia de caracteres
    DPI A resolução de DPI (pontos por polegadas) da imagem gerada. O padrão é 200 DPI. Int32
    Qualidade O nível de qualidade da imagem gerada, variando de 0 (mais baixo) a 100 (mais alto). O padrão é 95. Int32

    Converter em imagens

    Converte um documento PDF em imagens. Opcionalmente, especifique o caminho da pasta em que as imagens são salvas, o DPI (pontos por polegadas), a qualidade da imagem e uma lista opcional para armazenar os nomes dos arquivos gerados.

    Chame este método com o caminho da pasta em que as imagens devem ser salvas. Opcionalmente, ajuste os parâmetros de DPI e qualidade de imagem. Se você fornecer uma lista como o parâmetro FileNames, ela será preenchida com os nomes dos arquivos de imagem gerados.

    Tabela 4. Parâmetros do método ConvertToImages
    Parâmetro Descrição Tipo de dados
    Caminho da pasta O caminho da pasta onde as imagens convertidas serão salvas. Certifique-se de que a pasta exista e tenha as permissões de gravação apropriadas. Cadeia de caracteres
    DPI A resolução de DPI (pontos por polegadas) das imagens geradas. O padrão é 200 DPI. Int32
    Qualidade O nível de qualidade das imagens geradas, variando de 0 (mais baixo) a 100 (mais alto). O padrão é 95. Int32

    Converter em palavra

    Converte um PDF em um Microsoft documento do Word.

    Chame este método com o caminho do arquivo em que o documento do Word convertido deve ser salvo. O método cria um documento do Word a partir do conteúdo do PDF no caminho especificado.

    Tabela 5. Parâmetro do método ConvertToWord
    Parâmetro Descrição Tipo de dados
    WordFilepath O caminho do arquivo em que o documento do Word convertido (.doc) é salvo. Certifique-se de que o caminho do arquivo inclua o nome e a extensão do arquivo. Cadeia de caracteres

    Converter em XML

    Converte uma página especificada de um documento PDF para o formato Microsoft XML. Opcionalmente, somente tabelas poderão ser convertidas se especificadas.

    Chame este método com o número de página do PDF a ser convertido, o caminho do arquivo em que a saída XML deve ser salva e, opcionalmente, defina ConvertTablesOnly como verdadeiro se somente tabelas precisarem ser convertidas.

    Tabela 6. Parâmetros do método ConvertToXml
    Parâmetro Descrição Tipo de dados
    NúmeroPágina O número da página do PDF a ser convertido para o formato XML. Os números de página geralmente começam em 1. Int32
    XmlFilePath O caminho do arquivo em que o documento XML convertido será salvo. Certifique-se de que o caminho do arquivo inclua o nome e a extensão do arquivo Cadeia de caracteres
    ConvertTablesOnly Se definido como verdadeiro, somente as tabelas da página especificada serão convertidas em XML. O padrão é Verdadeiro. Booliano

    Extrair imagens

    Extrai imagens de páginas especificadas de um documento PDF. Opcionalmente, especifique o caminho da pasta em que as imagens são salvas e uma lista de saída para armazenar os nomes dos arquivos gerados.

    Chame este método com o caminho da pasta em que as imagens devem ser salvas, os números das páginas inicial e final das quais as imagens serão extraídas e uma lista vazia para armazenar os nomes dos arquivos das imagens extraídas.

    Tabela 7. Parâmetros para o método ExtrairImages
    Parâmetro Descrição Tipo de dados
    Caminho da pasta O caminho da pasta onde as imagens extraídas são salvas. Certifique-se de que a pasta exista e tenha as permissões de gravação apropriadas. Cadeia de caracteres
    Da página O número da página inicial da qual as imagens serão extraídas. Os números de página geralmente começam em 1. Int32
    Para página O número da página final até o qual as imagens devem ser extraídas. Este número deve ser maior ou igual ao número FromPage. Int32
    Nomes dos arquivos Um parâmetro de saída que armazena os nomes de arquivo das imagens extraídas. Lista`1

    ObterTodasTabelas

    Extrai todas as tabelas de um documento PDF e as retorna como uma lista de DataTables.

    Use o parâmetro Retornar para recuperar os dados da tabela extraídos como uma lista.

    Chame este método sem parâmetros para recuperar todas as tabelas do documento PDF. O método retorna uma lista de DataTables, em que cada DataTable representa uma tabela extraída do PDF.

    Tabela 8. Parâmetro do método GetAllTables
    Parâmetro Descrição Tipo de dados
    Retornar Este método retorna a lista de DataTable que representa tabelas extraídas do arquivo PDF. Lista`1

    ObterPáginaComoImagem

    Extrai dados de uma página de documento PDF e os armazena como uma imagem na memória.

    Retorna uma página especificada de um documento PDF como uma imagem na memória.

    Chame este método com o número da página do PDF para recuperar a página como uma imagem. O método retorna a página como um objeto System.Drawing.Image.

    Tabela 9. Parâmetros do método GetPageAsImage
    Parâmetro Descrição Tipo de dados
    NúmeroPágina O número da página do PDF a ser convertido em uma imagem. Os números de página geralmente começam em 1. Int32
    Retornar Este método retorna uma imagem que representa uma página especificada do arquivo PDF. Imagem.Desenho

    GetPageCount

    Recupera o número total de páginas em um documento PDF. Você deve usar o parâmetro Retornar para recuperar a contagem total de páginas no PDF como um número inteiro.

    Tabela 10. Parâmetro do método GetPageCount
    Parâmetro Descrição Tipo de dados
    Retornar Este método retorna um número inteiro que representa a contagem de páginas do arquivo PDF. Int32

    ObterTabela

    Extrai uma tabela de um PDF e a retorna como uma DataTable. O método de extração é especificado pelo parâmetro “ExtractBy”.

    Chame este método com o tipo de extração e o valor correspondente. O método retorna a tabela extraída como uma DataTable.

    Tabela 11. Parâmetros do método GetTable
    Parâmetro Descrição Tipo de dados
    ExtrairPor O método de extração a ser usado.

    Este parâmetro deve ser ExtratoTipo, que inclui as seguintes opções: Índice (0) - extrair por número de página e ContainsText (1) - extrair por texto correspondente.

    ExtrairTipo
    Valor O valor correspondente ao tipo de extração.

    Por exemplo, se ExtrairPor for Índice, este será o número da página como uma cadeia de caracteres; se ExtrairBy for ContainsText, este seria o texto a ser correspondido.

    Cadeia de caracteres
    Retornar Este método retorna uma DataTable que representa uma tabela extraída do arquivo PDF. Tabela

    ObterTexto

    Recupera texto do intervalo fornecido de páginas PDF.

    Chame este método com os números de página inicial e final para recuperar o texto dessas páginas. O método retorna o texto extraído como uma cadeia de caracteres.

    Tabela 12. Parâmetros do método GetText
    Parâmetro Descrição Tipo de dados
    Da página O número da página inicial do intervalo do qual o texto será extraído. Os números de página geralmente começam em 1. Int32
    Para página O número da página para a qual você recupera o texto da página inicial.
    Nota:
    Certifique-se de que o valor ToPage seja maior que o valor FromPage.
    Int32
    Retornar Este método retorna uma cadeia de caracteres que representa o conteúdo de texto do arquivo PDF. Cadeia de caracteres

    Carregar

    Carrega um arquivo PDF para interação, permitindo outras operações, como a extração de conteúdo.

    Chame este método com o caminho completo para o arquivo PDF (FilePath) e, opcionalmente, forneça uma senha (Password) se o PDF estiver protegido.

    Tabela 13. Parâmetros do método Carregar
    Parâmetro Descrição Tipo de dados
    Caminho do arquivo O caminho completo para o arquivo PDF a ser carregado. Isso deve incluir o nome e a extensão do arquivo. Cadeia de caracteres
    Senha A senha do arquivo PDF, se estiver protegido. Se o PDF não estiver protegido por senha, este parâmetro poderá ser uma cadeia de caracteres vazia. Cadeia de caracteres

    Mesclar

    Mescla uma lista de arquivos PDF em um único arquivo PDF.

    Chame este método com uma lista de caminhos de arquivo dos PDFs a serem mesclados, o caminho do arquivo de saída e um sinalizador de substituição opcional.

    Tabela 14. Parâmetros do método Mesclar
    Parâmetro Descrição Tipo de dados
    Lista de arquivos Uma lista de caminhos de arquivo para os arquivos PDF a serem mesclados. Cada caminho deve ser um caminho válido para um arquivo PDF. ArrayList
    CaminhoDoArquivoDeSaída O caminho do arquivo em que o PDF mesclado é salvo. Isso deve incluir o nome e a extensão do arquivo. Cadeia de caracteres
    Substituir Se definido como verdadeiro, o método substituirá o arquivo existente no caminho de saída, se ele existir. Se definido como Falso, o método não substituirá o arquivo existente.

    O padrão é Falso.

    Booliano
    Nota:
    Se os arquivos PDF estiverem protegidos por senha ou em um formato incorreto no parâmetro FileList, a automação exibirá um erro.

    Divisão

    Divide um único PDF em vários arquivos, onde cada página do PDF é salva como um arquivo separado.

    Chame este método com o caminho da pasta de saída em que as páginas do PDF dividido devem ser salvas.

    Tabela 15. Parâmetro do método Dividir
    Parâmetro Descrição Tipo de dados
    CaminhoDaPastaDeSaída O caminho para a pasta onde as páginas do PDF dividido são salvas. Certifique-se de que a pasta exista ou tenha as permissões apropriadas para gravar arquivos. Cadeia de caracteres