Podczas pracy, często występuje potrzeba analizy różnych danych w Excelu, niestety czasem zdarza się, że dane, które są nam potrzebne, zapisane są w PDFie i nie mamy jak dotrzeć do źródła tych danych w lepszej, edytowalnej formie. Plik PDF ma to do siebie, że działa i wyświetla się tak samo na wszystkich urządzeniach potrafiących odczytać ten format, ale nie jest stworzony do edycji.

Na szczęście w Excelu 365 w końcu pojawiła się taka możliwość, aby pliki PDF otwierać i wyciągać z nich te dane, których potrzebujemy. Można to zrobić za pomocą PowerQuery i w tym artykule zajmiemy się pokazaniem jak wygląda taka operacja, a także zaprezentujemy jak poradzić sobie z otwarciem PDFa, gdy nie dysponujemy Excelem w wersji 365.

Import pliku PDF do Power Query

W naszym przykładzie będziemy do Excela importować szesnastostronicowy plik PDF zawierający fikcyjne dane sprzedażowe firmy. Plan jest taki, aby w Excelu otrzymać z tego jedną tabelę, na której będziemy mogli wykonywać dowolne operacje. Jak wyglądają nasze dane możemy zobaczyć poniżej:

Każdy import danych w Excelu rozpoczyna się na karcie Dane. W wersji Office’a 365 jest to bardzo prosta sprawa:

W pierwszej sekcji karty Dane, czyli Pobieranie i przekształcanie danych klikamy w przycisk Pobierz dane -> Z pliku -> Z pliku PDF.

Otworzy nam się okno, w którym musimy wskazać nasz plik, który chcemy zaimportować. Po jego odnalezieniu i zaznaczeniu klikamy Importuj.

W tym momencie Excel nawiąże połączenie z plikiem i otworzy nam się Nawigator, w którym zobaczymy podgląd tego co program wykrył w pliku. W naszym przypadku zostało wykryte 16 tabel i tyle samo stron dokumentu. Przeglądając poszczególne elementy możemy zobaczyć, że np. Table001 (Page 1) i Page001 to są dokładnie te same dane. Dzieję się tak dlatego, że program oddzielnie pokazuje dane w podziale na tabele, które wykrył i osobno strony dokumentu – w naszym przypadku tabele wypełniają całe strony, więc dane są identyczne. Po imporcie należało będzie pozbyć się zduplikowanych danych. Do samego Power Query zaczytujemy wszystkie wykryte elementy zaznaczając logo folderu z nazwą pliku i klikamy w przycisk Przekształć dane.

Przeniesiemy się do Edytora Power Query, w którym dokonamy kilku niezbędnych przekształceń.
- Po pierwsze odfiltrujemy sobie zdublowane dane – w tym celu rozwijamy przycisk filtra na kolumnie Kind, odznaczamy element Page i klikamy OK.
- Następnie rozwiniemy wszystkie dane klikając w przycisk ze strzałkami na kolumnie Data, odznaczamy checkbox o nazwie Użyj oryginalnej nazwy kolumny jako prefiksu i ponownie klikamy OK.
- Pokazały nam się nowe kolumny – je chcemy zachować, ale resztę usuniemy. W tym celu klikamy PPM na dowolnym nagłówku z zaznaczonych kolumn i wybieramy przycisk Usuń inne kolumny.
- Ostatni krok to stworzenie nagłówków bazując na danych z pierwszego wiersza – w tym celu z karty Narzędzia główne, sekcja Przekształć wybieramy przycisk Użyj pierwszego wiersza jako nagłówków.
Tak przekształcone dane możemy już zwrócić do Excela klikając w przycisk Zamknij i załaduj znajdujący się w karcie Narzędzia główne.

Nasze dane z PDFa są już gotowe do obróbki w Excelu, natomiast problem może się pojawić, gdy nie dysponujemy Excelem 365 i w naszej wersji nie mamy przycisku „Z pliku PDF” – wtedy musimy skorzystać ze sposobu na obejście tego problemu.

Zainteresowało Cię narzędzie Power Query? Chciałbyś dowiedzieć się więcej o tym narzędziu? Zapraszamy na nasz kurs Excel Power Query oraz Kursy Power BI gdzie omawiamy to niezwykle przydatne narzędzie, z którego możesz korzystać zarówno w programie Excel jak i w programie Power BI Desktop.

Import z wykorzystaniem Worda i zapisu jako Strony sieci Web

Rozwiązanie które tutaj przedstawimy wykonane zostało na Excelu 2019 i jest pośrednim sposobem na import PDFa do Excela z wykorzystaniem Worda, przy czym trzeba zaznaczyć że taka konwersja nie zawsze musi się udać tak jak należy.

Rozpoczynamy od konwersji pliku PDF. W tym celu plik PDF otwieramyjako za pomocą programu Word.

Po wyświetleniu komunikatu o tym, że konwersja może nie być idealna klikamy OK.

Drugim krokiem jest zapisanie przekonwertowanego pliku jako plik z rozszerzeniem .html, czyli Strona sieci Web. Po wybraniu odpowiedniego formatu klikamy Zapisz.

W tym momencie przechodzimy do Excela, gdzie z karty Dane, sekcja Pobieranie i przekształcanie wybieramy przycisk Nowe zapytanie -> Z pliku -> Ze skoroszytu.

W oknie importu odnajdujemy nasz plik, pamiętając, aby podczas przeszukiwania folderu zmienić format z Pliki programu Excel na Wszystkie pliki. Po zaznaczeniu naszego pliku – strony internetowej klikamy Importuj.

Otworzy nam się Nawigator z widoczną strukturą pliku podzielonego na tabele, więc dalsze kroki wykonujemy już podobnie jak w pierwszym sposobie. Po wykonaniu niezbędnych przekształceń w Power Query i zwróceniu danych do Excela nasze dane z PDFa będą gotowe do dalszej pracy.

Zobacz również:

Otwieranie PDF w Wordzie

Czym jest Power Query i do czego służy?

Kursy walut w Excelu

Usuwanie pustych wierszy w Excelu

Szkolenia:

Kurs MOS Excel Expert

Kurs Excel Podstawy programowania w języku VBA

Kurs Microsoft Excel Średnio Zaawansowany

Kurs Microsoft Excel Zaawansowany

baza wiedzy excel Power Query

udostępnij:

Otwieranie plików PDF w Excelu za pomocą Power Query

Import pliku PDF do Power Query

Import z wykorzystaniem Worda i zapisu jako Strony sieci Web

Zobacz również:

Szkolenia: