fbpx

Otwieranie plików PDF w Excelu za pomocą Power Query

Podczas pracy, często występuje potrzeba analizy różnych danych w Excelu, niestety czasem zdarza się, że dane, które są nam potrzebne, zapisane są w PDFie i nie mamy jak dotrzeć do źródła tych danych w lepszej, edytowalnej formie. Plik PDF ma to do siebie, że działa i wyświetla się tak samo na wszystkich urządzeniach potrafiących odczytać ten format, ale nie jest stworzony do edycji.

Na szczęście w Excelu 365 w końcu pojawiła się taka możliwość, aby pliki PDF otwierać i wyciągać z nich te dane, których potrzebujemy. Można to zrobić za pomocą PowerQuery i w tym artykule zajmiemy się pokazaniem jak wygląda taka operacja, a także zaprezentujemy jak poradzić sobie z otwarciem PDFa, gdy nie dysponujemy Excelem w wersji 365.

Import pliku PDF do Power Query

W naszym przykładzie będziemy do Excela importować szesnastostronicowy plik PDF zawierający fikcyjne dane sprzedażowe firmy. Plan jest taki, aby w Excelu otrzymać z tego jedną tabelę, na której będziemy mogli wykonywać dowolne operacje. Jak wyglądają nasze dane możemy zobaczyć poniżej:

PDF w Excelu

Każdy import danych w Excelu rozpoczyna się na karcie Dane. W wersji Office’a 365 jest to bardzo prosta sprawa:

  1. W pierwszej sekcji karty Dane, czyli Pobieranie i przekształcanie danych klikamy w przycisk Pobierz dane -> Z pliku -> Z pliku PDF.
PDF w Excelu
  1. Otworzy nam się okno, w którym musimy wskazać nasz plik, który chcemy zaimportować. Po jego odnalezieniu i zaznaczeniu klikamy Importuj.
PDF w Excelu
  1. W tym momencie Excel nawiąże połączenie z plikiem i otworzy nam się Nawigator, w którym zobaczymy podgląd tego co program wykrył w pliku. W naszym przypadku zostało wykryte 16 tabel i tyle samo stron dokumentu. Przeglądając poszczególne elementy możemy zobaczyć, że np. Table001 (Page 1) i Page001 to są dokładnie te same dane. Dzieję się tak dlatego, że program oddzielnie pokazuje dane w podziale na tabele, które wykrył i osobno strony dokumentu – w naszym przypadku tabele wypełniają całe strony, więc dane są identyczne. Po imporcie należało będzie pozbyć się zduplikowanych danych. Do samego Power Query zaczytujemy wszystkie wykryte elementy zaznaczając logo folderu z nazwą pliku i klikamy w przycisk Przekształć dane.
PDF w Excelu
  1. Przeniesiemy się do Edytora Power Query, w którym dokonamy kilku niezbędnych przekształceń.
    • Po pierwsze odfiltrujemy sobie zdublowane dane – w tym celu rozwijamy przycisk filtra na kolumnie Kind, odznaczamy element Page i klikamy OK.
    • Następnie rozwiniemy wszystkie dane klikając w przycisk ze strzałkami na kolumnie Data, odznaczamy checkbox o nazwie Użyj oryginalnej nazwy kolumny jako prefiksu i ponownie klikamy OK.
    • Pokazały nam się nowe kolumny – je chcemy zachować, ale resztę usuniemy. W tym celu klikamy PPM na dowolnym nagłówku z zaznaczonych kolumn i wybieramy przycisk Usuń inne kolumny.
    • Ostatni krok to stworzenie nagłówków bazując na danych z pierwszego wiersza – w tym celu z karty Narzędzia główne, sekcja Przekształć wybieramy przycisk Użyj pierwszego wiersza jako nagłówków.
  2. Tak przekształcone dane możemy już zwrócić do Excela klikając w przycisk Zamknij i załaduj znajdujący się w karcie Narzędzia główne.
PDF w Excelu

Nasze dane z PDFa są już gotowe do obróbki w Excelu, natomiast problem może się pojawić, gdy nie dysponujemy Excelem 365 i w naszej wersji nie mamy przycisku „Z pliku PDF” – wtedy musimy skorzystać ze sposobu na obejście tego problemu.

Import z wykorzystaniem Worda i zapisu jako Strony sieci Web

Rozwiązanie które tutaj przedstawimy wykonane zostało na Excelu 2019 i jest pośrednim sposobem na import PDFa do Excela z wykorzystaniem Worda, przy czym trzeba zaznaczyć że taka konwersja nie zawsze musi się udać tak jak należy.

  1. Rozpoczynamy od konwersji pliku PDF. W tym celu plik PDF otwieramyjako za pomocą programu Word.
PDF w Excelu

Po wyświetleniu komunikatu o tym, że konwersja może nie być idealna klikamy OK.

PDF w Excelu
  1. Drugim krokiem jest zapisanie przekonwertowanego pliku jako plik z rozszerzeniem .html, czyli Strona sieci Web. Po wybraniu odpowiedniego formatu klikamy Zapisz.
PDF w Excelu
  1. W tym momencie przechodzimy do Excela, gdzie z karty Dane, sekcja Pobieranie i przekształcanie wybieramy przycisk Nowe zapytanie -> Z pliku -> Ze skoroszytu.
PDF w Excelu
  1. W oknie importu odnajdujemy nasz plik, pamiętając, aby podczas przeszukiwania folderu zmienić format z Pliki programu Excel na Wszystkie pliki. Po zaznaczeniu naszego pliku – strony internetowej klikamy Importuj.
PDF w Excelu
  1. Otworzy nam się Nawigator z widoczną strukturą pliku podzielonego na tabele, więc dalsze kroki wykonujemy już podobnie jak w pierwszym sposobie. Po wykonaniu niezbędnych przekształceń w Power Query i zwróceniu danych do Excela nasze dane z PDFa będą gotowe do dalszej pracy.
PDF w Excelu

Zobacz również:

Szkolenia:

Gratulacje!
Wniosek został wysłany prawidłowo.
Dziękujemy za przesłanie zapytania. Skontaktujemy się z Tobą najszybciej jak to możliwe.