Expose>Blog>Otwieranie plików PDF w Excelu za pomocą Power Query
Otwieranie plików PDF w Excelu za pomocą Power Query
Podczas pracy, często występuje potrzeba analizy różnych danych w Excelu, niestety czasem zdarza się, że dane, które są nam potrzebne, zapisane są w PDFie i nie mamy jak dotrzeć do źródła tych danych w lepszej, edytowalnej formie. Plik PDF ma to do siebie, że działa i wyświetla się tak samo na wszystkich urządzeniach potrafiących odczytać ten format, ale nie jest stworzony do edycji.
Na szczęście w Excelu 365 w końcu pojawiła się taka możliwość, aby pliki PDF otwierać i wyciągać z nich te dane, których potrzebujemy. Można to zrobić za pomocą PowerQuery i w tym artykule zajmiemy się pokazaniem jak wygląda taka operacja, a także zaprezentujemy jak poradzić sobie z otwarciem PDFa, gdy nie dysponujemy Excelem w wersji 365.
Import pliku PDF do Power Query
W naszym przykładzie będziemy do Excela importować szesnastostronicowy plik PDF zawierający fikcyjne dane sprzedażowe firmy. Plan jest taki, aby w Excelu otrzymać z tego jedną tabelę, na której będziemy mogli wykonywać dowolne operacje. Jak wyglądają nasze dane możemy zobaczyć poniżej:
Każdy import danych w Excelu rozpoczyna się na karcie Dane. W wersji Office’a 365 jest to bardzo prosta sprawa:
W pierwszej sekcji karty Dane, czyli Pobieranie i przekształcanie danych klikamy w przycisk Pobierz dane -> Z pliku -> Z pliku PDF.
Otworzy nam się okno, w którym musimy wskazać nasz plik, który chcemy zaimportować. Po jego odnalezieniu i zaznaczeniu klikamy Importuj.
W tym momencie Excel nawiąże połączenie z plikiem i otworzy nam się Nawigator, w którym zobaczymy podgląd tego co program wykrył w pliku. W naszym przypadku zostało wykryte 16 tabel i tyle samo stron dokumentu. Przeglądając poszczególne elementy możemy zobaczyć, że np. Table001 (Page 1) i Page001 to są dokładnie te same dane. Dzieję się tak dlatego, że program oddzielnie pokazuje dane w podziale na tabele, które wykrył i osobno strony dokumentu – w naszym przypadku tabele wypełniają całe strony, więc dane są identyczne. Po imporcie należało będzie pozbyć się zduplikowanych danych. Do samego Power Query zaczytujemy wszystkie wykryte elementy zaznaczając logo folderu z nazwą pliku i klikamy w przycisk Przekształć dane.
Przeniesiemy się do Edytora Power Query, w którym dokonamy kilku niezbędnych przekształceń.
Po pierwsze odfiltrujemy sobie zdublowane dane – w tym celu rozwijamy przycisk filtra na kolumnie Kind, odznaczamy element Page i klikamy OK.
Następnie rozwiniemy wszystkie dane klikając w przycisk ze strzałkami na kolumnie Data, odznaczamy checkbox o nazwie Użyj oryginalnej nazwy kolumny jako prefiksu i ponownie klikamy OK.
Pokazały nam się nowe kolumny – je chcemy zachować, ale resztę usuniemy. W tym celu klikamy PPM na dowolnym nagłówku z zaznaczonych kolumn i wybieramy przycisk Usuń inne kolumny.
Ostatni krok to stworzenie nagłówków bazując na danych z pierwszego wiersza – w tym celu z karty Narzędzia główne, sekcja Przekształć wybieramy przycisk Użyj pierwszego wiersza jako nagłówków.
Tak przekształcone dane możemy już zwrócić do Excela klikając w przycisk Zamknij i załaduj znajdujący się w karcie Narzędzia główne.
Nasze dane z PDFa są już gotowe do obróbki w Excelu, natomiast problem może się pojawić, gdy nie dysponujemy Excelem 365 i w naszej wersji nie mamy przycisku „Z pliku PDF” – wtedy musimy skorzystać ze sposobu na obejście tego problemu.
Zainteresowało Cię narzędzie Power Query? Chciałbyś dowiedzieć się więcej o tym narzędziu? Zapraszamy na nasz kurs Excel Power Query oraz Kursy Power BI gdzie omawiamy to niezwykle przydatne narzędzie, z którego możesz korzystać zarówno w programie Excel jak i w programie Power BI Desktop.
Import z wykorzystaniem Worda i zapisu jako Strony sieci Web
Rozwiązanie które tutaj przedstawimy wykonane zostało na Excelu 2019 i jest pośrednim sposobem na import PDFa do Excela z wykorzystaniem Worda, przy czym trzeba zaznaczyć że taka konwersja nie zawsze musi się udać tak jak należy.
Rozpoczynamy od konwersji pliku PDF. W tym celu plik PDF otwieramyjako za pomocą programu Word.
Po wyświetleniu komunikatu o tym, że konwersja może nie być idealna klikamy OK.
Drugim krokiem jest zapisanie przekonwertowanego pliku jako plik z rozszerzeniem .html, czyli Strona sieci Web. Po wybraniu odpowiedniego formatu klikamy Zapisz.
W tym momencie przechodzimy do Excela, gdzie z karty Dane, sekcja Pobieranie i przekształcanie wybieramy przycisk Nowe zapytanie -> Z pliku -> Ze skoroszytu.
W oknie importu odnajdujemy nasz plik, pamiętając, aby podczas przeszukiwania folderu zmienić format z Pliki programu Excel na Wszystkie pliki. Po zaznaczeniu naszego pliku – strony internetowej klikamy Importuj.
Otworzy nam się Nawigator z widoczną strukturą pliku podzielonego na tabele, więc dalsze kroki wykonujemy już podobnie jak w pierwszym sposobie. Po wykonaniu niezbędnych przekształceń w Power Query i zwróceniu danych do Excela nasze dane z PDFa będą gotowe do dalszej pracy.