Difference between revisions of "Orange: Import Documents"

From OnnoWiki
Jump to navigation Jump to search
(Created page with "Sumber: https://orange3-text.readthedocs.io/en/latest/widgets/importdocuments.html Import text documents from folders. Inputs None Outputs Corpus: A collecti...")
 
 
(12 intermediate revisions by the same user not shown)
Line 2: Line 2:
  
  
 +
Import text document dari folder.
  
 +
==Input==
  
 +
None
  
 +
==Output==
  
Import text documents from folders.
+
Corpus: A collection of documents from the local machine.
  
Inputs
+
Widget Import Documents mengambil file text dari folder dan membuat sebuah corpus. Widget Import Documents dapat membaca .txt, .docx, .odt, .pdf dan .xml. Jika dalam folder ada subfolder, itu dapat digunakan untuk me-label class.
  
    None
+
[[File:Import-Documents-stamped.png|center|200px|thumb]]
  
Outputs
+
* Folder being loaded.
 +
* Load folder from a local machine.
 +
* Reload the data.
 +
* Number of documents retrieved.
  
    Corpus: A collection of documents from the local machine.
+
Jika widget Import Documents karena satu dan lain hal tidak berhasil membaca file tertentu, maka file tersebut akan di loncat / skipped. File yang berhasil di baca akan di kirim ke output.
  
Import Documents widget retrieves text files from folders and creates a corpus. The widget reads .txt, .docx, .odt, .pdf and .xml files. If a folder contains subfolders, they will be used as class labels.
+
==Contoh==
  
../_images/Import-Documents-stamped.png
+
Di Widget Import Documents, untuk mengambil data, pilih (select) folder icon di sebelah kanan dari widget. Pilih (select) folder yang kita ingin jadikan corpus. Setelah loading selesai, kita akan melihat berapa dokumen yang berhasil di ambil oleh Widget Import Documents. Untuk mengamati corpus yang di peroleh, sambungkan widget Import Documents ke Widget Corpus Viewer. Dalam workflow ini, kita menggunakan sekumpulan pidato Presiden Kennedy dalam format text biasa.
  
    Folder being loaded.
+
[[File:Import-Documents-Example1.png|center|200px|thumb]]
    Load folder from a local machine.
 
    Reload the data.
 
    Number of documents retrieved.
 
  
If the widget cannot read the file for some reason, the file will be skipped. Files that were successfully retrieved will still be on the output.
+
Selanjut dalam workflow di bawah ini, widget Import Documents dapat me-load subfolder. Kita menyimpan pidato presiden Kennedy dalam dua (2) subfolder, yaitu, pre-1962 dan post-1962. Jika kita me-load parent folder, ke dua subfolder akan digunakan sebagai class label. Cek output widget Import Documents di widget Data Table.
Example
 
 
 
To retrieve the data, select the folder icon on the right side of the widget. Select the folder you wish to turn into corpus. Once the loading is finished, you will see how many documents the widget retrieved. To inspect them, connect the widget to Corpus Viewer. We’ve used a set of Kennedy’s speeches in a plain text format.
 
 
 
../_images/Import-Documents-Example1.png
 
 
 
Now let us try it with subfolders. We have placed Kennedy’s speeches in two folders - pre-1962 and post-1962. If I load the parent folder, these two subfolders will be used as class labels. Check the output of the widget in a Data Table.
 
 
 
../_images/Import-Documents-Example2.png
 
  
 +
[[File:Import-Documents-Example2.png|center|200px|thumb]]
  
 
==Referensi==
 
==Referensi==

Latest revision as of 11:35, 16 March 2020

Sumber: https://orange3-text.readthedocs.io/en/latest/widgets/importdocuments.html


Import text document dari folder.

Input

None

Output

Corpus: A collection of documents from the local machine.

Widget Import Documents mengambil file text dari folder dan membuat sebuah corpus. Widget Import Documents dapat membaca .txt, .docx, .odt, .pdf dan .xml. Jika dalam folder ada subfolder, itu dapat digunakan untuk me-label class.

Import-Documents-stamped.png
  • Folder being loaded.
  • Load folder from a local machine.
  • Reload the data.
  • Number of documents retrieved.

Jika widget Import Documents karena satu dan lain hal tidak berhasil membaca file tertentu, maka file tersebut akan di loncat / skipped. File yang berhasil di baca akan di kirim ke output.

Contoh

Di Widget Import Documents, untuk mengambil data, pilih (select) folder icon di sebelah kanan dari widget. Pilih (select) folder yang kita ingin jadikan corpus. Setelah loading selesai, kita akan melihat berapa dokumen yang berhasil di ambil oleh Widget Import Documents. Untuk mengamati corpus yang di peroleh, sambungkan widget Import Documents ke Widget Corpus Viewer. Dalam workflow ini, kita menggunakan sekumpulan pidato Presiden Kennedy dalam format text biasa.

Import-Documents-Example1.png

Selanjut dalam workflow di bawah ini, widget Import Documents dapat me-load subfolder. Kita menyimpan pidato presiden Kennedy dalam dua (2) subfolder, yaitu, pre-1962 dan post-1962. Jika kita me-load parent folder, ke dua subfolder akan digunakan sebagai class label. Cek output widget Import Documents di widget Data Table.

Import-Documents-Example2.png

Referensi

Pranala Menarik