Power Query арқылы PDF файлынан Excel бағдарламасына деректерді импорттаңыз

Деректерді PDF файлындағы электрондық кестеден Microsoft Excel парағына тасымалдау тапсырмасы әрқашан «қызықты». Әсіресе, сізде FineReader немесе сол сияқты қымбат тану бағдарламалық құралы болмаса. Тікелей көшіру әдетте жақсылыққа әкелмейді, өйткені. көшірілген деректерді параққа қойғаннан кейін олар бір бағанға «жабысып» қалуы мүмкін. Сондықтан оларды құралдың көмегімен мұқият бөлуге тура келеді Бағандар бойынша мәтін қойындысынан мәліметтер (Деректер — мәтінді бағандарға).

Және, әрине, көшіру мәтіндік қабаты бар PDF файлдары үшін ғана мүмкін, яғни қағаздан PDF форматына сканерленген құжатпен бұл принцип бойынша жұмыс істемейді.

Бірақ бұл соншалықты қайғылы емес, шынымен 🙂

Егер сізде Office 2013 немесе 2016 болса, онда бірнеше минут ішінде қосымша бағдарламаларсыз деректерді PDF файлынан Microsoft Excel бағдарламасына тасымалдауға болады. Бұл бізге Word және Power Query көмектеседі.

Мысалы, Еуропа Экономикалық Комиссиясының веб-сайтындағы мәтіндер, формулалар және кестелер жиынтығы бар осы PDF есебін алайық:

Power Query арқылы PDF файлынан Excel бағдарламасына деректерді импорттаңыз

… және оны Excel бағдарламасында шығарып көріңіз, бірінші кестені айтыңыз:

Power Query арқылы PDF файлынан Excel бағдарламасына деректерді импорттаңыз

Барайық!

1-қадам. Word бағдарламасында PDF файлын ашыңыз

Кейбір себептермен аз адамдар біледі, бірақ 2013 жылдан бастап Microsoft Word PDF файлдарын ашуды және тануды үйренді (тіпті сканерленген, яғни мәтіндік қабатсыз!). Бұл толығымен стандартты жолмен жасалады: Word бағдарламасын ашыңыз, басыңыз Файл – Ашу (Файл — Ашық) және терезенің төменгі оң жақ бұрышындағы ашылмалы тізімде PDF пішімін көрсетіңіз.

Содан кейін бізге қажет PDF файлын таңдап, басыңыз ашық (Ашық). Word бұл құжатта мәтінге OCR іске қосылатынын айтады:

Power Query арқылы PDF файлынан Excel бағдарламасына деректерді импорттаңыз

Біз келісеміз және бірнеше секундтан кейін PDF файлын Word бағдарламасында өңдеуге ашық көреміз:

Power Query арқылы PDF файлынан Excel бағдарламасына деректерді импорттаңыз

Әрине, дизайн, стильдер, қаріптер, үстіңгі және төменгі колонтитулдар және т.б. құжаттан ішінара ұшып кетеді, бірақ бұл біз үшін маңызды емес - бізге тек кестелердегі деректер қажет. Негізінде, осы кезеңде кестені танылған құжаттан Word бағдарламасына көшіріп, оны Excel бағдарламасына қою қызықтырады. Кейде ол жұмыс істейді, бірақ көбінесе бұл деректердің барлық бұрмалануларына әкеледі - мысалы, сандар даталарға айналуы мүмкін немесе біздің жағдайымыздағыдай мәтін болып қалуы мүмкін, өйткені. PDF бөлгіш еместерді пайдаланады:

Power Query арқылы PDF файлынан Excel бағдарламасына деректерді импорттаңыз

Сондықтан бұрыштарды кесіп алмайық, бірақ бәрін сәл күрделірек етейік, бірақ дұрыс.

2-қадам: Құжатты веб-бет ретінде сақтаңыз

Алынған деректерді Excel бағдарламасына (Power Query арқылы) жүктеу үшін Word бағдарламасындағы құжат веб-бет пішімінде сақталуы керек – бұл пішім бұл жағдайда Word пен Excel арасындағы ортақ бөлгіш болып табылады.

Мұны істеу үшін мәзірге өтіңіз Файл – Басқаша сақтау (Файл — Басқаша сақтау) немесе пернесін басыңыз F12 пернетақтада және ашылатын терезеде файл түрін таңдаңыз Бір файлдағы веб-бет (Веб-бет — Бір файл):

Power Query арқылы PDF файлынан Excel бағдарламасына деректерді импорттаңыз

Сақтағаннан кейін сіз mhtml кеңейтімі бар файлды алуыңыз керек (егер сіз Explorer-де файл кеңейтімдерін көрсеңіз).

3-кезең. Power Query арқылы файлды Excel бағдарламасына жүктеп салу

Жасалған MHTML файлын Excel бағдарламасында тікелей ашуға болады, бірақ содан кейін біз, біріншіден, PDF файлының барлық мазмұнын мәтінмен және көптеген қажетсіз кестелермен бірге аламыз, ал екіншіден, біз қателескендіктен деректерді қайтадан жоғалтамыз. бөлгіштер. Сондықтан Excel бағдарламасына импорттауды Power Query қондырмасы арқылы орындаймыз. Бұл толығымен тегін қондырма, оның көмегімен Excel бағдарламасына кез келген дереккөзден (файлдар, қалталар, дерекқорлар, ERP жүйелері) деректерді жүктеп салуға болады, содан кейін алынған деректерді қалаған пішінді бере отырып, барлық мүмкін түрде түрлендіруге болады.

Егер сізде Excel 2010-2013 болса, Power Query бағдарламасын Microsoft ресми веб-сайтынан жүктеп алуға болады – орнатудан кейін сіз қойындыны көресіз. Қуат сұрауы. Егер сізде Excel 2016 немесе одан жаңа нұсқасы болса, ештеңе жүктеп алудың қажеті жоқ – барлық функциялар әдепкі бойынша Excel бағдарламасына енгізілген және қойындыда орналасқан. мәліметтер (Күні) топта Жүктеп алу және түрлендіру (Алу және түрлендіру).

Сонымен, біз қойындыға барамыз мәліметтер, немесе қойындыда Қуат сұрауы және команданы таңдаңыз Деректерді алу үшін or Сұраныс жасау – Файлдан – XML файлынан. XML файлдарын ғана емес, көрінетін ету үшін терезенің төменгі оң жақ бұрышындағы ашылмалы тізімдегі сүзгілерді келесіге өзгертіңіз: Барлық файлдар (Барлық файлдар) және MHTML файлымызды көрсетіңіз:

Power Query арқылы PDF файлынан Excel бағдарламасына деректерді импорттаңыз

Импорттау сәтті аяқталмайтынын ескеріңіз, себебі. Power Query бізден XML күтеді, бірақ бізде HTML пішімі бар. Сондықтан, пайда болған келесі терезеде Power Query үшін түсініксіз файлды тінтуірдің оң жақ түймешігімен басып, оның пішімін көрсету керек:

Power Query арқылы PDF файлынан Excel бағдарламасына деректерді импорттаңыз

Осыдан кейін файл дұрыс танылады және біз оның құрамындағы барлық кестелердің тізімін көреміз:

Power Query арқылы PDF файлынан Excel бағдарламасына деректерді импорттаңыз

Деректер бағанындағы ұяшықтардың ақ фонында (Кесте сөзінде емес!) тінтуірдің сол жақ батырмасын басу арқылы кестелердің мазмұнын көруге болады.

Қажетті кесте анықталғанда, жасыл сөзді басыңыз үстел – және сіз оның мазмұнына «түсіп кетесіз»:

Power Query арқылы PDF файлынан Excel бағдарламасына деректерді импорттаңыз

Оның мазмұнын «тарақтау» үшін бірнеше қарапайым қадамдарды орындау қажет, атап айтқанда:

  1. қажет емес бағандарды жою (баған тақырыбын тінтуірдің оң жақ түймешігімен басыңыз – кетіру)
  2. нүктелерді үтірмен ауыстырыңыз (бағандарды таңдаңыз, тінтуірдің оң жақ түймешігімен басыңыз – Мәндерді ауыстыру)
  3. тақырыптағы тең белгілерді алып тастаңыз (бағандарды таңдаңыз, тінтуірдің оң жақ түймешігімен басыңыз – Мәндерді ауыстыру)
  4. жоғарғы жолды алып тастаңыз (Home – Жолдарды жою – Жоғарғы жолдарды жою)
  5. бос жолдарды алып тастаңыз (Басты бет – Жолдарды жою – Бос жолдарды жою)
  6. бірінші жолды кесте тақырыбына көтеріңіз (Басты – бірінші жолды тақырыптар ретінде пайдаланыңыз)
  7. сүзгі арқылы қажет емес деректерді сүзгіден өткізіңіз

Кестені қалыпты пішінге келтіргенде, оны пәрмен арқылы параққа түсіруге болады жабыңыз және жүктеңіз (Жабу және жүктеу) on Басты қойындысы. Біз қазірдің өзінде жұмыс істей алатын сұлулықты аламыз:

Power Query арқылы PDF файлынан Excel бағдарламасына деректерді импорттаңыз

  • Power Query көмегімен бағанды ​​кестеге түрлендіру
  • Жабысқақ мәтінді бағандарға бөлу

пікір қалдыру